In [1]:
# Pandas

# 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리
# 일반적으로 데이터 세트는 2차원 데이터 행과 열로 구성되어 있다.
# 그 이유는 가장 이해하기 쉬운 데이터 구조이면서도 효율적으로 가공/처리할 수 있는 훌륭한 기능을 제공

# 저수준 API로 데이터 핸들링이 어려운 넘파이와 다르게 넘파이 기반이지만 훨씬 유연하고 편리하게 데이터 핸들링 가능
# 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터뿐만 아니라 CSV 등의 파일을 쉽게 DataFrame으로 변경해 데이터의 가공/분석을 편리하게 수행할 수 있게 만들어준다.

In [1]:
import pandas as pd

In [6]:
# 판다스는 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 편리한 API 제공
# 대표적으로 read_csv(), read_table(), read_fwf()
# read_table()과 read_csv 의 가장 큰 차이는 필드 구분 문자(Delimeter)가 콤마(',')냐 탭('\t')이냐의 차이

# read_csv는 CSV 뿐만 아니라 어떤 필드 구분 문자 기반의 파일 포맷도 DataFrame으로 변환이 가능
# read_csv('파일명', sep='\t')

titanic_df = pd.read_csv('./titanic_train.csv')


# DataFrame.head()는 DataFrame의 맨 앞에 있는 N개의 로우를 반환(디폴트는 5)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [5]:
print('titanic 변수 type:', type(titanic_df))

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


In [8]:
print('DataFrame 행과 열의 크기:', titanic_df.shape)

DataFrame 행과 열의 크기: (891, 12)


In [10]:
# info() 메서드를 통해 총 데이터 건수와 데이터 타입, Null 건수 알 수 있다.

titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [13]:
# describe() 메서드를 통해 컬럼별 숫자형 데이터 값의 n-percentile 분포도, 평균값, 최대값, 최솟값 등

titanic_df.describe()

# count 는 Not Null 데이터 건수
# PassengerID 컬럼은 승객ID를 식별하는 컬럼이므로 1~891까지 숫자가 할당되어서 분석을 위한 의미 있는 속성이 아니다.
# Survived의 경우 min 0, 25~75%도 0, max도 1이므로 0과 1로 이뤄진 숫자형 카테고리 컬럼일 것이다.
# Pclass의 경우 min 1, 25~75%가 2와 3, max 3이므로 1,2,3으로 이뤄진 숫자형 카테고리 컬럼일 것이다.

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [15]:
titanic_df.value_counts()

PassengerId  Survived  Pclass  Name                                                  Sex     Age   SibSp  Parch  Ticket    Fare      Cabin  Embarked
2            1         1       Cumings, Mrs. John Bradley (Florence Briggs Thayer)   female  38.0  1      0      PC 17599  71.2833   C85    C           1
572          1         1       Appleton, Mrs. Edward Dale (Charlotte Lamson)         female  53.0  2      0      11769     51.4792   C101   S           1
578          1         1       Silvey, Mrs. William Baird (Alice Munger)             female  39.0  1      0      13507     55.9000   E44    S           1
582          1         1       Thayer, Mrs. John Borland (Marian Longstreth Morris)  female  39.0  1      1      17421     110.8833  C68    C           1
584          0         1       Ross, Mr. John Hugo                                   male    36.0  0      0      13049     40.1250   A10    C           1
                                                                                 

In [14]:
# value_counts() 는 지정된 칼럼의 데이터값 건수를 반환한다. 
# 분포도를 확인하는 데 매우 유용한 함수

value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

Pclass
3    491
1    216
2    184
Name: count, dtype: int64


In [18]:
# DataFrame의 [] 연산자 내부에 컬럼명을 입력하면 해당 컬럼에 해당하는 Series 객체를 반환

titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

titanic_pclass.head()

# value_counts() 역시 Series 객체이다.
value_counts = titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts)

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
Pclass
3    491
1    216
2    184
Name: count, dtype: int64


In [20]:
# value_counts() 메서드를 사용할 때는 Null 값을 무시하고 결괏값 반환
# Null 값 포함하여 value_counts() 적용하고자 한다면, value_counts(dropna=False)

print('titnic_df 데이터 건수:', titanic_df.shape[0])
print('기본 설정인 dropna=True로 value_counts()')
# value_counts()는 디폴트로 dropna=True이므로 value_counts(dropna=True)와 동일
print(titanic_df['Embarked'].value_counts())
print('-'*50)
print(titanic_df['Embarked'].value_counts(dropna=False))

titnic_df 데이터 건수: 891
기본 설정인 dropna=True로 value_counts()
Embarked
S    644
C    168
Q     77
Name: count, dtype: int64
--------------------------------------------------
Embarked
S      644
C      168
Q       77
NaN      2
Name: count, dtype: int64


In [23]:
# isnull() or insa() 에 value_count() 메서드를 활용하여 Null값을 확인할 수도 있다!
# False 값이 Not Null 데이터 건수

titanic_df['Embarked'].isnull().value_counts()

Embarked
False    889
True       2
Name: count, dtype: int64

* ndarray, list, dictionary를 DataFrame으로 변환하기

In [24]:
import numpy as np

col_name1 = ['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)
print('array1 shape:', array1.shape)
# 리스트 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)
# numpy ndarray를 이용해 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns = col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

array1 shape: (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


In [25]:
# 2차원 형태의 데이터를 기반으로 DF 생성

# 3개의 칼럼명 필요
col_name2 = ['col1', 'col2', 'col3']

# 2행x3열 형태의 리스트와 ndarray 생성한 뒤 이를 DataFrame으로 변환
list2 = [[1, 2, 3], 
         [11, 12, 13]]
array2 = np.array(list2)
print('array2.shape:', array2.shape)
df_list2 = pd.DataFrame(list2, columns = col_name2)
print('2차원 리스트로 만든 DataFrame:\n', df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n', df_array2)

array2.shape: (2, 3)
2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


In [26]:
# 딕셔너리로 만들기
# Key는 문자열 칼럼명으로 매핑, Value는 리스트 형(또는 ndarray) 컬럼 데이터로 매핑

dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

딕셔너리로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    22    33


* DataFrame을 넘파이 ndarray, list, dictionary로 변환

In [28]:
# DataFrame 을 ndarray로 변환

array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values.shape:', array3.shape)
print(array3)

# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:',type(list3))
print(list3)

# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values.shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]
df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


* DataFrame의 컬럼 데이터 세트 생성과 수정

In [30]:
# new column Age_0, Age_by_10, Family_No 추가

titanic_df['Age_0'] = 0
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


* DataFrame 데이터 삭제

In [31]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


In [32]:
titanic_df.head(3)
# 원본 titanic_df에는 'Age_0'컬럼 여전히 존재

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [33]:
# inplace=True => 자신의 데이터프레임의 데이터 삭제

drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)
print('inplace=True 로 drop 후 반환된 값:', drop_result)
titanic_df.head(3)

inplace=True 로 drop 후 반환된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [34]:
# axis=0으로 설정하면 로우 삭제

* Index 객체

In [41]:
# 원본 파일 다시 로딩
titanic_df = pd.read_csv('./titanic_train.csv')
# Index 객체 추출
indexes = titanic_df.index
print(indexes)
# Index 객체를 실제 값 array로 변환
print('Index 객체 array 값:\n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array 값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 23

In [36]:
# ndarray와 유사하게 단일 값 반환 및 슬라이싱도 가능

print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [37]:
# 한 번 만들어진 DataFrame 및 Series의 Index 객체는함부로 변경 할 수 없음
indexes[0] =5

TypeError: Index does not support mutable operations

In [42]:
# Series 객체는 Index 객체를 포함하지만 Series 객체에 연산 함수를 적용할 때 Index는 연산에서 제외된다
# Index는 오직 식별용으로만 사용

series_fair = titanic_df['Fare']
print('Fair Series max 값:', series_fair.max())
print('Fair Series sum 값:', series_fair.sum())
print('sum() Fair Series:', sum(series_fair))
print('Fair Series + 3:\n', (series_fair+3).head(3))

Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [43]:
# reset_index() 메서드 수행하면 새롭게 인덱스를 연속 숫자형으로 할당하며 기존 인덱스는 'index'라는 새로운 컬럼명으로 추가
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [44]:
print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입 :', type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:', type(new_value_counts))

### before reset_index ###
Pclass
3    491
1    216
2    184
Name: count, dtype: int64
value_counts 객체 변수 타입 : <class 'pandas.core.series.Series'>
### After reset_index ###
   Pclass  count
0       3    491
1       1    216
2       2    184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


* DataFrame의 []연산자

In [47]:
print('단일컬럼 데이터 추출 :\n', titanic_df['Pclass'].head(3))
print('-'*50)
print('\n여러 칼럼의 데이터 추출:\n', titanic_df[['Survived', 'Pclass']].head(3))
print('-'*50)
print('[] 안에 숫자 index는 kyeError 오류 발생:\n', titanic_df[0])

단일컬럼 데이터 추출 :
 0    3
1    1
2    3
Name: Pclass, dtype: int64
--------------------------------------------------

여러 칼럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3
--------------------------------------------------


KeyError: 0

In [48]:
titanic_df[:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [49]:
titanic_df[titanic_df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


* DataFrame iloc[] 연산자

In [50]:
data = {'Name': ['Chulmin', 'Eunkyung', 'jinwoong', 'Soobeom'],
        'Year': [2011, 2016, 2015, 2015],
        'Gender' : ['Male', 'Female', 'Male', 'Male']}

data_df = pd.DataFrame(data, index=['one', 'two', 'three', 'four'])
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,jinwoong,2015,Male
four,Soobeom,2015,Male


In [53]:
data_df.iloc[0,0]

'Chulmin'

In [55]:
# 아래 코드는 모두 오류를 발생
data_df.iloc[0, 'Name']
data_df.iloc['one', 0]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [56]:
data_df.iloc[1, 0]  # 두번째 행의 첫번째 열 위치에 있는 단일 값 반환

'Eunkyung'

In [57]:
data_df.iloc[2, 1]  # 세번째 행의 두번째 열 위치에 있는 단일 값 반환

2015

In [59]:
data_df.iloc[0:3, [0, 1]]  # 0:3슬라이싱 범위의 첫번째에서 세번째 행과 첫번째, 두번째 열에 해당하는 DataFrame 반환

Unnamed: 0,Name,Year
one,Chulmin,2011
two,Eunkyung,2016
three,jinwoong,2015


In [61]:
data_df.iloc[:2, :3]

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female


In [60]:
data_df.iloc[:], data_df.iloc[:, :]  # 전체 DataFrame 반환

(           Name  Year  Gender
 one     Chulmin  2011    Male
 two    Eunkyung  2016  Female
 three  jinwoong  2015    Male
 four    Soobeom  2015    Male,
            Name  Year  Gender
 one     Chulmin  2011    Male
 two    Eunkyung  2016  Female
 three  jinwoong  2015    Male
 four    Soobeom  2015    Male)

In [62]:
print('\n 맨 마지막 컬럼 데이터 [:, -1] \n', data_df.iloc[:, -1])
print('\n 맨 마지막 컬럼을 제외한 모든 데이터 [:, :-1] \n', data_df.iloc[:, :-1])


 맨 마지막 컬럼 데이터 [:, -1] 
 one        Male
two      Female
three      Male
four       Male
Name: Gender, dtype: object

 맨 마지막 컬럼을 제외한 모든 데이터 [:, :-1] 
            Name  Year
one     Chulmin  2011
two    Eunkyung  2016
three  jinwoong  2015
four    Soobeom  2015


* DataFrame loc[] 연산자

In [63]:
data_df.loc['one', 'Name']

'Chulmin'

In [64]:
# 다음 코드는 오류 발생
data_df.loc[0, 'Name']

KeyError: 0

In [65]:
print('위치기반 iloc slicing \n', data_df.iloc[0:1, 0], '\n')
print('명칭기반 loc slicing \n', data_df.loc['one':'two', 'Name'])

# 위치기반 iloc[:1]은 0번째 행 위치에 해당하는 1개의 행만 반환했지만
# 명칭 기반 loc['one':'two']는 2개의 행을 반환

위치기반 iloc slicing 
 one    Chulmin
Name: Name, dtype: object 

명칭기반 loc slicing 
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object


* 불린 인덱싱

In [66]:
titanic_df = pd.read_csv('./titanic_train.csv')
titanic_boolean = titanic_df[titanic_df['Age']>60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [67]:
titanic_df[titanic_df['Age']>60][['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


In [70]:
titanic_df.loc[titanic_df['Age']>60, ['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


In [71]:
titanic_df[ (titanic_df['Age']>60) & (titanic_df['Pclass']==1) 
           & (titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


In [72]:
# 개별 조건을 변수에 할당하고 이들 변수를 결합해서 불린 인덱싱 수행 가능

cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass'] == 1
cond3 = titanic_df['Sex'] == 'female'

titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


* 정렬, Aggregation 함수, Group By 적용

In [73]:
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S


In [74]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5,,S


In [76]:
# Aggregation 함수 적용


# DataFrame에서 min(), max(), sum(), count()와 같은 aggregation 함수의 적용은
# RDBMS SQL의 aggregation 함수 적용과 유사하다.
# 다만, DataFrame의 경우 모든 컬럼에 해당 aggregation을 적용한다는 차이가 있다.

# count() 적용하면 모든 컬럼에 count()결과 반환
# Null값은 반영하지 않기 때문에 Age, Cabin, Embarked 컬럼은 count 값이 다르다
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [77]:
# 특정 컬럼에 aggregation 함수 적용하기 위해서는 dataframe에 대상 컬럼들만 추출해 적용

titanic_df[['Age', 'Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

* Groupby() 적용

In [78]:
# RDBMS SQL의 groupby와 유사하면서도 다른 면이 있다.
# DataFrame의 groupby()사용 시 입력 파라미터 by에 컬럼을 입력하면
# 대상 컬럼으로 groupby된다.
# DataFrame의 groupby()를 호출하면 DataFrameGroupBy라는 또 다른 형태의 DataFrame 반환

titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [79]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [80]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [81]:
# agg() 를 이용해 서로 다른 aggregation 함수 호출

titanic_df.groupby('Pclass')['Age'].agg([max, min])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


In [83]:
agg_format = {'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


* 결손 데이터 처리하기

In [84]:
# isna()

titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [85]:
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

* fillna()로 결손 데이터 대체하기

In [86]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


In [88]:
titanic_df['Cabin'].isna().sum()

0

In [90]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())  # Age 평균 값으로 대체
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')  # 'S'로 대체
titanic_df.isna().sum()


PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

* apply lambda 식으로 데이터 가공

In [93]:
# lambda 식은 파이썬에서 함수형 프로그래밍을 지원하기 위해 만들었다.

def get_square(a):
    return a**2

print('3의 제곱은 :', get_square(3))

# 위의 함수는 def get_square(a):와 같이 함수명과 입력 인자를 먼저 선언하고 이후 함수 내에서 입력 인자를 가공한 뒤 결과값을 return과 같은 문법으로 반환해야 한다.
# lambda는 이러한 함수의 선언과 함수 내의 처리를 한 줄의 식으로 쉽게 변환하는 식이다.

lambda_square = lambda x : x ** 2
print('3의 제곱은 :', lambda_square(3))

# ':'의 왼쪽에 있는 x는 입력 인자를 가리키며, 오른쪽은 입력 인자의 계산식이다.
# 오른쪽의 계산식은 결국 반환값을 의미한다.

3의 제곱은 : 9
3의 제곱은 : 9


In [94]:
# map() : 여러 개의 값을 입력 인자로 사용해야 할 경우 labmda와 결합하여 사용

a = [1, 2, 3]
squares = map(lambda x : x**2, a)
list(squares)

[1, 4, 9]

In [96]:
# 판다스 DataFrame의 lambda 식은 파이썬의 이러한 lambda 식을 그대로 적용한 것이다.
# DataFrame의 apply에 lambda 식을 적용해 데이터를 가공한다.

titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


In [98]:
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(3)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult


In [99]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else ('Adult' if x <=60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()

Age_cat
Adult      786
Child       83
Elderly     22
Name: count, dtype: int64

In [101]:
# 나이에 따라 세분화 된 분류를 수행하는 함수 생성

def get_category(age):
    cat = ''
    if age <= 5: cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else : cat = 'Elderly'

    return cat

# lambda 식에 위에서 생성한 get_category 함수를 반환값으로 지정
# get_category(X)는 입력값으로 'Age' 컬럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age', 'Age_cat']].head(3)


Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
