# 데이터 핸들링 - 판다스 


* 월스트리트 금융회사의 분석전무가 웨스매티키(Wes McKinney)는 회사의 분석용 데이터 핸들링 툴이 마음에 들지 않아 판다스를 개발
* 파이썬에서 데이터 처리에 가장 있기 있는 라이브러리로 대부분의 데이터 세트는 2차원 데이터 (행*열)
* 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터 뿐만 아니라 CSV 파일 등을 쉽게 dataframe 으로 변경해 데이터의 가공/분석이 편리


## 중요 객체
* Index : RDMS 의 PK 와 동일한 역할 (개별 데이터 고유식별)
* Series : 인덱스를 Key 로 가지고 칼럼이 하나인 구조체 
* Dataframe : 인덱스를 Key 로 가지고 칼럼이 여러개인 구조체 


## 판다스 시작 - 파일을 DataFrame 으로 로딩 , 기본 API

In [3]:
#판다스 임포트 

import pandas as pd


## 파일을 데이터 프레임으로 로딩하는 API 

* read_csv()   : 칼럼을 ',' 로 구분한 파일 포맷 변환
    * read_csv(sep='\t') : 탭으로 필드 구분된 파일 표맷 변환 가능
* read_table() : 칼럼을 '\t' 로 구분한 파일 포맷 변환
* read_fwf()   : 고정 길이 기반의 칼럼 포맷 변환

In [4]:
titanic_df = pd.read_csv('titanic_train.csv')

# read_csv(r'파일경로', sep=',') 형식으로 사용 할 수 있으나 주피터 노트북과 동일 경로에 파일이 존재하면 파일명만 입력가능

In [5]:
titanic_df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [10]:
type(titanic_df)

pandas.core.frame.DataFrame

In [11]:
print('데이터프레임크기',titanic_df.shape)

데이터프레임크기 (891, 12)


## info( )

* 데이터 로우와 칼럼 , 칼럼별 데이터 타입, Non-null 개수, 데이터 타입 요약

In [12]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## describe ()
* 숫자형 칼럽의 분포도만 조사 
데이터 건수, 평균, 표준편자, 최소값, 최대값

In [13]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


## Dataframe 의 [ ] 연산자 내부에 칼럼명을 입력하면 Series 형태로 특정 컬럼 데이터 세트가 반환
## Series 객체에 value_counts( ) 를 통해 데이터값 건수를 반환

In [20]:
(titanic_df['Pclass'])

0      3
1      1
2      3
3      1
4      3
      ..
886    2
887    1
888    3
889    1
890    3
Name: Pclass, Length: 891, dtype: int64

In [15]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


In [16]:
titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


In [23]:
# 시리즈는 인덱스와 단하나의 칼럼으로 구성됨

titanic_pclass.head(5)

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

In [105]:
# 인덱스 값은 꼭 순차 데이터가 아니어도 상관없음, 고유성만 가질수 있다면 문자로도 사용가능


print(titanic_df['Pclass'].head(3))
print('\n')
print(value_counts)
print(type(value_counts))

0    3
1    1
2    3
Name: Pclass, dtype: int64


3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>


### DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

* 데이터프레임은 리스트와 넘파이 ndarray와 다르게 칼럼명을 가지고 있어 데이터 핸들링을 편하게 할수 있음
* 데이터프레임은 기본적으로 행과 열을 가지는 2차원 데이터로 2차원 데이터만 데이터프레임으로 변환이 가능

### 1차원 형태의 데이터를 변환하기위해 1개의 칼럼을 지정하여 데이터 변환 

In [47]:

import numpy as np

col_name1=['col1'] # 1차원 데이터 이므로 칼럼은 하나만 정의 
list1 = [1, 2, 3]
array1 = np.array(list1)

print('array1 shape:', array1.shape )
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

array1 shape: (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


### 2차원 데이터를 기반으로 데이터프레임을 생성 : 열의 개수만큼 컬럼을 지정 

In [49]:

import numpy as np


# 3개의 컬럼명이 필요함. 
col_name2=['col1', 'col2', 'col3']

# 2행x3열 형태의 리스트와 ndarray 생성 한 뒤 이를 DataFrame으로 변환. 
list2 = [[1, 2, 3],
         [11, 12, 13]]
array2 = np.array(list2)
print('array2 shape:', array2.shape )
df_list2 = pd.DataFrame(list2, columns=col_name2)
print('\n2차원 리스트로 만든 DataFrame:\n', df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('\n2차원 ndarray로 만든 DataFrame:\n', df_array2)

array2 shape: (2, 3)

2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13

2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


### 딕셔너리를 데이터 프레임으로 변환 

* key : 칼럼명 
* 값 : 칼럼데이터 로 변황

In [50]:
# Key는 컬럼명으로 매핑, Value는 리스트 형(또는 ndarray)
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

딕셔너리로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    22    33


### 많은 머신러닝 패키지가 기본 데이터형으로 넘파이 ndarray를 사용
* DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환하는 경우가 빈번하게 발생하게 됨

In [52]:
# DataFrame을 ndarray로 변환
array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)
print(array3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]


###  리스트 변환 : to_list()
### 딕셔너리 변화 : to_dict()

In [53]:
# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:', type(list3))
print(list3)

# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


### DataFrame의 컬럼 데이터 셋 Access


In [6]:
titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [55]:
# 새로운 칼럼을 추가하고 해당 칼럼에 데이터를 '0' 으로 할당 (기존데이터 프레임에 Series 가 추가됨)

titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [57]:
# 기존 칼럼을 이용해 데이터를 가공하여 새로운 Series 를 생성가능

titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [60]:
# 새롭게 생성된 칼럼의 값을 일괄적으로 업데이트도 가능

titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,420.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,580.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,460.0,1


### 데이터 삭제

* drop() 메서드를 이용
* DataFrame.drop(labels=None, axis=0, index=None, colums=None, level=None, inplace=False, errors='raise')
    * Axis0 : 행(row) , Axis1: 열(columns) 
    
    * axis1 인 경우 labels 자리에 칼럼명을 입력, Axis0 인 경우 labels 자리에 로우를 입력

In [62]:
# Age_0 칼럼을 삭제

titanic_drop_df = titanic_df.drop('Age_0', axis=1 )
titanic_drop_df.head(3)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,420.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,580.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,460.0,1


### inplace=False 가 디폴트 이므로 원본데이터는 삭제되지 않고 삭제된 결과만 DataFrame 으로 반환

In [68]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### inplace = True 로 설정하면 자신의 데이터프레임의 데이터를 삭제
* 여러개의 컬럼을 삭제하고자 하는 경우에는 리스트를 활용하면 가능

In [69]:
drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)
print(' inplace=True 로 drop 후 반환된 값:',drop_result)
titanic_df.head()

 inplace=True 로 drop 후 반환된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### axis=0 로 설정하여 3개의 로우를 삭제하는 예제 

In [70]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))

titanic_df.drop([0,1,2], axis=0, inplace=True)

print('#### after axis 0 drop ####')
print(titanic_df.head(3))

#### before axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
#### after axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


### 인덴스 객체

* RDBMS 의 PK 와 유사하게 DataFrame, Series 의 레코드를 고유하게 식별하는 객체
* values 속성으로 ndarray 값을 알수 있음

In [71]:
# 원본 파일 재 로딩 
titanic_df = pd.read_csv('titanic_train.csv')

# Index 객체 추출
indexes = titanic_df.index

print(indexes) 

# Index 객체를 실제 값 arrray로 변환 
print('Index 객체 array값:\n',indexes.values)



RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232

### 인덱스 개체는 식별성 데이터를 1차원 array 로 가지고 있어 단일값 반환 및 슬라이싱 가능 

In [73]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [74]:
# 한번 만들어진 인덱스 객체는 함부로 변경할 수 없습니다. 
indexes[0] = 5

TypeError: Index does not support mutable operations

In [75]:

# 연산함수를 적용할 때 인덱스는 연산에서 제외 (???)


series_fair = titanic_df['Fare']
print('Fair Series max 값:', series_fair.max())
print('Fair Series sum 값:', series_fair.sum())
print('sum() Fair Series:', sum(series_fair))
print('Fair Series + 3:\n',(series_fair + 3).head(3) )



Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [77]:
print(series_fair).head(3)

0       7.2500
1      71.2833
2       7.9250
3      53.1000
4       8.0500
        ...   
886    13.0000
887    30.0000
888    23.4500
889    30.0000
890     7.7500
Name: Fare, Length: 891, dtype: float64


AttributeError: 'NoneType' object has no attribute 'head'

In [78]:
# reset_index() 메서드 를 수행하면 새롭게 인덱스를 연속 숫자형으로 할당 , 기존 인덱스는 'index' 라는 칼럼으로 추가됨 

titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [80]:
# 앞서 확인 한 Pclass 의 고유값 인덱스를 숫자형 고유 식별자로 변경 가능
# Series 에 reset_index() 를 적용하면 데이터프레임으로 변경됨 
# inplace = True 로 설정시에는 Series 로 유지

print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입:',type(value_counts))

new_value_counts = value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:',type(new_value_counts))

### before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
value_counts 객체 변수 타입: <class 'pandas.core.series.Series'>
### After reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


### 데이터 셀렉션 및 필터링

* 넘파이의 [] 연산자 내 단일값 추출, 슬라이싱, 팬시인덱싱, 불린인덱싱과 동일하게 판다스의 경우 ix[], iloc[], loc[] 연산자를 지원
* 데이터프레임의 '[]' 안에는 칼럼명 또는 칼럼명의 리스트 객체만 들어갈 수 있음

In [82]:
print('단일 컬럼 데이터 추출:\n', titanic_df[ 'Pclass' ].head(3))
print('\n여러 컬럼들의 데이터 추출:\n', titanic_df[ ['Survived', 'Pclass'] ].head(3))
print('[ ] 안에 숫자 index는 KeyError 오류 발생:\n', titanic_df[0])

단일 컬럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 컬럼들의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


KeyError: 0

### 판다스의 인덱스 형태로 변환 가능한 표현식은 [] 내에 입력할 수 있음 ???? 

In [83]:
titanic_df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [87]:
# boolean 기반 인덱싱 가능 : Pclass 가 3인 데이터 3개만 반환
titanic_df[ titanic_df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


* 데이터프레임 바로뒤의 [] 연산자는 칼럼명 또는 지정하여 사용하거나 불린 인덱스 용도로만 사용해야함
* 슬라이싱 연산으로 데이터를 추출하는 방법은 사용하지 않는게 좋습니다.

In [91]:
# 위치기반 인덱싱과 , 칼럼명 기반 인덱싱을 동시에 사용할 수 있지만 명확하지 않아 사라질 예정

print('컬럼 위치 기반 인덱싱 데이터 추출:',titanic_df.ix[0,2])
print('컬럼명 기반 인덱싱 데이터 추출:',titanic_df.ix[0,'Pclass'])

AttributeError: 'DataFrame' object has no attribute 'ix'

### DataFrame iloc[ ] 연산자
* 위치기반 인덱싱만 혀용

In [93]:
data = {'Name': ['Chulmin', 'Eunkyung','Jinwoong','Soobeom'],
        'Year': [2011, 2016, 2015, 2015],
        'Gender': ['Male', 'Female', 'Male', 'Male']
       }
data_df = pd.DataFrame(data, index=['one','two','three','four'])
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [98]:
# data_df 를 reset_index() 로 새로운 숫자형 인덱스를 생성
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns={'index':'old_index'})

# index 값에 1을 더해서 1부터 시작하는 새로운 index값 생성
data_df_reset.index = data_df_reset.index+1
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
1,one,Chulmin,2011,Male
2,two,Eunkyung,2016,Female
3,three,Jinwoong,2015,Male
4,four,Soobeom,2015,Male


In [94]:
data_df.iloc[0, 0]

'Chulmin'

In [95]:
# 아래 코드는 오류를 발생합니다. 
data_df.iloc[0, 'Name']

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [96]:
# 아래 코드는 오류를 발생합니다. 
data_df.iloc['one', 0]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

###  DataFrame loc[ ] 연산자
* 명칭기반 데이터 추출


In [97]:
data_df.loc['one', 'Name']

'Chulmin'

In [100]:
# 명칭기반 데이터 추출연산자 이지만 인덱스가 숫자형일 경우에는 숫자 입력이 가능
data_df_reset.loc[1, 'Name']

'Chulmin'

In [101]:
# 아래 코드는 오류를 발생합니다. 
data_df_reset.loc[0, 'Name']

KeyError: 0

### 명칭기반 인덱싱에서 슬라이싱을 "시작점:종료점" 으로 지정할 때는 종료점을 포함한 위치에 있는 데이터를 반환한다

In [106]:
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [108]:
print('위치기반 iloc slicing\n', data_df.iloc[0:1, 0],'\n') #
print('명칭기반 loc slicing\n', data_df.loc['one':'two', 'Name'])

           Name  Year  Gender
one     Chulmin  2011    Male
two    Eunkyung  2016  Female
three  Jinwoong  2015    Male
four    Soobeom  2015    Male
위치기반 iloc slicing
 one    Chulmin
Name: Name, dtype: object 

명칭기반 loc slicing
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object


### 불린 인덱싱

* iLOC[] 는 정수형 값이 아닌 불린 값에 대해서는 지원하지 않기 때문에 불린 인덱싱을 지원하지 않는다

##### 새롭게 타이타닉 데이터 세트를 로드한 후 승객 나이가 60세 이상인 데이터맡 불린 인덱싱을 통해 추출하는 예제

In [113]:
titanic_df = pd.read_csv('titanic_train.csv')
titanic_boolean = titanic_df[titanic_df['Age'] > 60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. ...",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. ...",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr...",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr...",male,64.0,1,4,19950,263.0,C23 C25 C27,S


##### 반환되는 객체가 DataFrame 이므로 원하는 컬럼을 뽑아 표시 할 수 있음

In [118]:
titanic_boolean[['Name','Age']].head()

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0
116,"Connors, Mr...",70.5
170,Van der hoe...,61.0


#### 복합 조건을 활용한 데이터 추출 

* and 조건 : &
* or 조건 : |
* Not 조건일 때는 ~

In [122]:
titanic_df[ (titanic_df['Age'] > 60) & (titanic_df['Pclass']==1) & (titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


##### 개별 조건울 변수에 할당하고 이들 변수를 결함해서 불린 인덱싱 수행도 가능

In [124]:
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass']==1
cond3 = titanic_df['Sex']=='female'
titanic_df[ cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


### 정렬, Aggregation함수, GroupBy 적용

* DataFrame, Series의 정렬 - sort_values()



데이터 정렬을 위해 sort_valuess() 매서드를 이용 (SQL의 order by 와 유사)
* 주요입력 파라미터 
    * by : 특정 칼럼으로 정렬
    * ascending = True 오름차순정렬
    * inplace=False 호출한 데이터프레임은 그래도 유지한 채 정렬된 데이터 프레임을 반환함

In [128]:
# Name 칼럼을 기준으로 오름차순 정렬 (디폴트 ascending = True)
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S
308,309,0,2,"Abelson, Mr...",male,30.0,1,0,P/PP 3381,24.0,,C
874,875,1,2,"Abelson, Mr...",female,28.0,1,0,P/PP 3381,24.0,,C


##### 여러개의 칼럼을 기준으로 정렬을 수행하기 위해 List 사용

In [129]:

titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


##### 칼럼별로 정렬 기준을 각기 다르게 적용 

In [134]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=[False,True])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S


##### Aggregation 함수 사용

* min(), max(), sum(), count()

In [139]:
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [137]:
titanic_df[['Age', 'Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

##### Group By 적용

* 입력 파라미터에 칼럼값을 입력하면 해당값으로 Groub by 수행

In [140]:
titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


##### Group by 호출 반환 결과에 Aggregation 함수를 적용하면 대상칼럼을 제외한 모든 칼럼에 Aggregatin 함수를 적용한다 

In [142]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


* 특정 칼럼만 필터링해 보고 싶다면 해당 칼럼을 명시적으로 지정해 준다.

In [143]:

titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


##### 서로 다른 Aggregation 함수명을 사용하기 위해서는 데이터프레임 객체에 agg() 내에 인자로 입력해서 사용해야 한다

In [147]:
titanic_df.groupby('Pclass')['Age'].agg([max, min, sum])

Unnamed: 0_level_0,max,min,sum
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,0.92,7111.42
2,70.0,0.67,5168.83
3,74.0,0.42,8924.92


##### 여러개의 칼럼에 각각 다른  aggregation 함수를 사용하고자 하는 경우 딕셔너리 형태로 함수를 입력해야 함 

In [148]:

agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


### 결손데이터 처리하기 


* 판다스에서 결손 데이터는 넘파이의 NaN 으로 표시 
* 머신러닝은 NaN을 처리하지 않으므로 다른 값으로 대체가 필요함

In [151]:
# isna() 를 이용해 NaN 을 확인
# True / False 값으로 결과를 반황함 (NaN 일 경우 True)

titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [153]:
# SUM 함수를 추가해 결손 데이터 갯수 확인 가능

titanic_df.isna( ).sum( )

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [154]:
# fillna() 함수로 결손데이터 대체 가능 

titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


##### 실제 데이터 값을 변경하기 위해서는 inplace=True 를 설정해야 한다.  titanic_df['Cabin'].fillna('C000', inplace=True)

In [155]:

titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

### apply lambda 식으로 데이터 가공

* apply 함수에 lambda 식을 결합해 데이터를 가공하는 기능을 제공


In [170]:
# 함수명, 인자선언 - 함수내에서 인자 가공 - return 문법 반환 과정 필요

def get_square(a):
    return a**2

print('3의 제곱은:',get_square(3))

3의 제곱은: 9


In [171]:
# 함수의 선언과 처리를 한줄로 표현

lambda_square = lambda x : x ** 2   # ':' 을 통해 계산식 분리. 왼쪽의 x는 입력인자 , 오른쪽의 x 는 입력인자의 계산식
print('3의 제곱은:',lambda_square(3))

3의 제곱은: 9


In [172]:
# 여러개의 값을 인자로 사용해야 할 경우 map() 함수를 결함

a=[1,2,3]
squares = map(lambda x : x**2, a)   
list(squares)

[1, 4, 9]

##### apply 에 lambda 식을 적용하여 데이터 가공 

In [173]:
# Name_len 칼럼에 Name 칼럼의 문자열 갯수로 지정


titanic_df['Name_len']= titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name','Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


##### if else 절을 사용하여 좀더 복잡한 처리도 가능 

In [175]:
# 15세 미만이면 child , 그렇지 않으면 adult 로 구분하는 칼럼 생성
# Lambda 식 ':' 오른편에 반드시 반환값이 와야 함으로 if 앞에 반환값이 표기 , else는 뒤에 반환값 표기

titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <=15 else 'Adult' )
titanic_df[['Age','Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


In [176]:
# else if 는 지원하지 않으므로 좀더 복잡한 구분을 만들기 위해서 else 절에 다시 if 문을 추가한다. 


titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : 'Child' if x<=15 else ('Adult' if x <= 60 else 
                                                                                  'Elderly'))
titanic_df['Age_cat'].value_counts()

Adult      786
Child       83
Elderly     22
Name: Age_cat, dtype: int64

In [169]:
# 나이에 따라 세분화된 분류를 수행하는 함수 생성. 
def get_category(age):
    cat = ''
    if age <= 5: cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else : cat = 'Elderly'
    
    return cat

# lambda 식에 위에서 생성한 get_category( ) 함수를 반환값으로 지정. 
# get_category(X)는 입력값으로 ‘Age’ 컬럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age','Age_cat']].head()
    

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
