# 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API

https://www.kaggle.com/c/titanic/data 에서 타이타닉의 train.csv 파일을 다운로드.

판다스는 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 편리한 API를 제공한다. 대표적으로 read_csv(), read_table(), reac_fwf()가 있다.

read_csv() : 칼럼을 ','로 구분한 파일 포맷(탭일 수도 있음)

read_table() : 칼럼을 탭('\t')으로 구분한 파일 포맷

read_fwf() : Fixed Width, 즉 고정 길이 기반의 카럼 포맷을 DataFrame으로 로딩하기 위한 API

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd

In [3]:
titanic_df = pd.read_csv("경로/titanic_train.csv")
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [4]:
print('titanic 변수 type :', type(titanic_df))
titanic_df

titanic 변수 type : <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


pd.read_csv()는 호출 시 파일명 인자로 들어온 파일을 로딩해 DataFrame 객체로 반환한다.

read_csv()는 별다른 파라미터 지정이 없으면 파일의 맨 처음 로우를 칼럼명으로 인지하고 칼럼으로 변환한다. 그리고 콤마로 구분된 데이터값들이 해당 칼럼에 맞게 할당된다. 위 결과를 보면, 칼럼 명이 표시되지 않는 이 데이터들은 바로 판다스의 Index 객체 값이다. 모든 DataFrame 내의 데이터는 생성되는 순간 고유의 Index 값을 가지게 된다. 

In [5]:
print('DataFrame 크기 :',titanic_df.shape)

DataFrame 크기 : (891, 12)


titanic_df는 891개의 로구와 12개의 칼럼으로 이루어져있다.

DataFrame은 데이터뿐만 아니라 칼럼의 타입, Null 데이터의 개수, 데이터 분포도 등의 메타 데이터 등도 조회할 수 있다. 

#### info() - 총 데이터 건수와 데이터 타입, Null 건수

In [6]:
titanic_df.info()

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 891 entries, 0 to 890           # DataFrame index의 범위를 나타냄. 전체 row 수 = 891개, 전체 column 수 = 12 개
# Data columns (total 12 columns):
#  #   Column       Non-Null Count  Dtype  
# ---  ------       --------------  -----  
#  0   PassengerId  891 non-null    int64  
#  1   Survived     891 non-null    int64  
#  2   Pclass       891 non-null    int64     # int64형
#  3   Name         891 non-null    object    # object형 - 문자열 
#  4   Sex          891 non-null    object 
#  5   Age          714 non-null    float64   # 몇 개의 데이터가 non-null인지 나타냄. 891개 중 714개가 non-null이며, 177개가 null 이다.
#  6   SibSp        891 non-null    int64  
#  7   Parch        891 non-null    int64  
#  8   Ticket       891 non-null    object 
#  9   Fare         891 non-null    float64
#  10  Cabin        204 non-null    object 
#  11  Embarked     889 non-null    object 
# dtypes: float64(2), int64(5), object(5)     # 전체 12개의 칼럼들의 타입을 요약. 2개의 칼럼이 float64, 5개의 칼럼이 int64, 5개의 칼럼이 object 타입이다.
# memory usage: 83.7+ KB

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### describe() - 칼럼별 숫자형 데이터값의 n-percentile 분포도, 평균값, 최댓값, 최솟값

describe()은 오직 숫자형(int, float 등) 칼럼의 분포도만 조사하여 자동으로 object 타입의 칼럼은 출력에서 제외시킨다.

In [7]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


count : Not Null 건수

mean : 전체 데이터의 평균값

std : 표준편차

min : 최소값

max : 최대값

25%, 50%, 75%

또한 describe() 해당 숫자 칼럼이 숫자형 카테고리 칼럼인지 판단할 수 있게 도와준다. 카테고리 칼럼은 특정 범주에 속하는 값을 코드화한 칼럼이다. 

예를 들어 성별 칼럼의 경우 '남' - 1, '여' - 2 가 있다. 이러한 카테고리 칼럼을 숫자로 표시할 수도 있다.

PassengerID 칼럼은 승객 ID를 식별하는 칼럼이므로 1~891까지 숫자가 할당되어서 분석을 위한 의미 있는 속성이 아니다. Survived의 경우 min 0, 25% ~ 75% 0, max 1 로 0과 1로 이루어진 숫자형 카테고리 칼럼일 것이다. Pclass의 경우도 min 1, 25% ~ 75%가 2와 3, max 3으로 1, 2, 3으로 이루어진 카테고리 칼럼일 것이다.

Pclass 칼럼의 값이 어떠한 분포로 구성되어 있는지 확인해보자. DataFrame의 [] 연산자 내부에 칼럼명을 입력하면 Series 형태로 특정 칼럼 데이터 세트가 반환된다. 이렇게 반환된 Series 객체에 value_counts() 메서드를 호출하면 해당 칼럼값의 유형과 건수를 확인할 수 있다.

value_counts()는 지정된 칼럼의 데이터값 건수를 반환한다.


In [8]:
value_counts = titanic_df['Pclass'].value_counts()
value_counts
"""
index  data
3      491
1      216
2      184
"""

'\nindex  data\n3      491\n1      216\n2      184\n'

value_counts()의 반환 결과는 Pclass값이 3이 491개, 1이 216개, 2가 184개이다. value_counts()는 많은 건수 순서로 정렬되어 값을 반환한다.

In [9]:
titanic_pclass = titanic_df['Pclass']
type(titanic_pclass)

pandas.core.series.Series

In [10]:
titanic_pclass.head()
"""
index  data
0      3
1      1
2      3
3      1
4      3
"""

'\nindex  data\n0      3\n1      1\n2      3\n3      1\n4      3\n'

# DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

DataFrame은 파이썬의 리스트, 딕셔너리 그리고 넘파이 ndarray 등 다양한 데이터로부터 생성될 수 있다. 또한 DataFrame은 반대로 파이썬의 리스트, 딕셔너리 그리고 넘파이 ndarray 등으로 변환될 수 있다.

특히 사이킷런의 많은 API는 DataFrame을 인자로 입력받을 수 있지만, 기본적으로 넘파이 ndarray를 입력 인자로 사용하는 경우가 대부분이다. 따라서 DataFrame과 넘파이 ndarray 상호 간의 변환은 매우 빈번하게 발생한다.

DataFrame은 기본적으로 행과 열을 가지는 2차원 데이터이다. 따라서 2차원 이하의 데이터들만 DataFrame으로 변환될 수 있다. 먼저 1차원 형태의 리스트와 넘파이 ndarray부터 DataFrame으로 변환해보자. 

1차원 데이터이므로 칼럼은 1개만 필요하고, 칼럼명은 'col1'으로 지정.

In [11]:
import numpy as np

col_name = ['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)
print('array1 shape :', array1.shape)

df_list1 = pd.DataFrame(list1, columns=col_name)
print('1차원 리스트로 만든 DataFrame :\n',df_list1)
df_array1 = pd.DataFrame(array1, columns=col_name)
print('1차원 리스트로 만든 DataFrame :\n',df_array1)

array1 shape : (3,)
1차원 리스트로 만든 DataFrame :
    col1
0     1
1     2
2     3
1차원 리스트로 만든 DataFrame :
    col1
0     1
1     2
2     3


1차원 형태의 데이터를 기반으로 DataFrame을 생성하므로 칼럼명은 하나만 필요하다.

이번에는 2차원 형태의 데이터를 기반으로 DataFrame을 생성하자. 2행 3열 형태의 리스트와 ndarray를 기반으로 DataFrame을 생성하므로 칼럼명은 3개 필요.

In [12]:
# 2행 3열 리스트
list2 = [[1, 2, 3],
         [11, 22, 33]]

col_name2 = ['col1', 'col2', 'col3']
array2 = np.array(list2)

print('array2 shape :', array2.shape)
df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame :\n',df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame :\n',df_array2)

array2 shape : (2, 3)
2차원 리스트로 만든 DataFrame :
    col1  col2  col3
0     1     2     3
1    11    22    33
2차원 리스트로 만든 DataFrame :
    col1  col2  col3
0     1     2     3
1    11    22    33


딕셔너리를 DataFrame으로 변환.

딕셔너리를  DataFrame으로 변환 시 딕셔너리의 키는 칼럼명으로, 딕셔너리의 값은 키에 해당하는 칼럼 데이터로 변환.

키 -> 문자열, 값 -> 리스트(또는 ndarray)

In [13]:
dic = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dic = pd.DataFrame(dic)
print(df_dic)

   col1  col2  col3
0     1     2     3
1    11    22    33


#### DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환

많은 머신러닝 패키지가 기본 데이터 형으로 넘파이 ndarray를 사용한다. 따라서 데이터 핸들링은 DataFrame을 이용하더라도 머신러닝 패키지의 입력 인자 등에 적용하기 위해 다시 넘파이 ndarray로 변환하는 경우가 빈번하게 발생한다. DataFrame은 넘파이 ndarray로 변환하는 것은 DataFrame 객체의 values를 이용해 쉽게 할 수 있다.

In [14]:
array3 = df_dic.values
print('df_dic.values 타입 :', type(array3), 'df_dic.values shape :', array3.shape)
print(array3)

df_dic.values 타입 : <class 'numpy.ndarray'> df_dic.values shape : (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [15]:
list3 = df_dic.values.tolist()
print('df_dic.values.tolist() 타입 :',type(list3))
print(list3)

# 딕셔너리로의 변환 : DataFrame 객체의 to_dict() 메서드를 호출하는데, 인자로 'list'를 입력하면 딕셔너리의 값이 리스트형으로 변환된다.
dic3 = df_dic.to_dict('list')
print('\n df_dic.to_dict() 타입 :',type(dic3))
print(dic3)

df_dic.values.tolist() 타입 : <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dic.to_dict() 타입 : <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


# DataFrame의 칼럼 데이터 세트 생성과 수정

DataFrame의 칼럼 데이터 세트 생성과 수정 역시 [] 연산자를 이용해 쉽게 할 수 있다. 먼저 Titanic DataFrame의 새로운 칼럼 Age_0을 추가하고 일괄적으로 값을 0으로 할당하자. 

In [16]:
titanic_df['Age_0'] = 0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


새로운 칼럼명 'Age_0'으로 모든 데이터 값이 0으로 할당된 Series가 기존 DataFrame에 추가됨을 알 수 있다. 

titanic_df['Age_0'] = 0과 같이 Series에 상수값을 할당하면 Series의 모든 데이터 세트에 일괄적으로 적용된다. 이번에는 기존 칼럼 Series의 데이터를 이용해 새로운 칼럼 Series를 만들어보자.

In [17]:
titanic_df['Age_by_10'] = titanic_df['Age'] * 10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


기존 칼럼 Series를 가공해 새로운 칼럼 Series인 Age_by_10과 Family_No가 새롭게 DataFrame에 추가됨을 알 수 있다.

DataFrame 내의 기존 칼럼 값도 쉽게 일괄적으로 업데이터할 수 있다. 업데이터를 원하는 칼럼 Series를 DataFrame[] 내에 칼럼 명으로 입력한 뒤에 값을 할당해주면 된다. 새롭게 추가한 'Age_by_10' 칼럼 값을 일괄적으로 기존 값 + 100으로 업데이터해보자.

In [18]:
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


# DataFrame 데이터 삭제

DataFrame에서 데이터의 삭제는 drop() 메서드를 이용한다. drop() 메서드에는 중요한 파라미터인 labels, axis, inplace가 있다.

먼저 axis 값(0 - 로우 방향, 1 - 칼럼 방향)에 따라서 특정 칼럼 또는 특정 행을 드롭한다.

labels에는 원하는 칼럼 또는 로우 명을 입력하고 axis=1을 입력하면 지정된 칼럼을, axis=0을 입력하면 로우 축 방향으로 드롭을 수행한다.

inplace의 디폴트 값은 False이고, inplace=True를 설정하면 원본 DataFrame의 데이터에 반영된다.

In [19]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1) # Age_0 컬럼 삭제
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [20]:
display(titanic_df.head(3))
titanic_df.drop('Age_0', axis=1, inplace=True)
display(titanic_df.head(3))

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [21]:
titanic_df.drop(['Age_by_10', 'Family_No'], axis=1, inplace=True)
display(titanic_df.head(3))

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [22]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
display(titanic_df.head())

titanic_df.drop([0, 1, 2], axis=0, inplace=True)

print('#### after axis 0 drop ####')
display(titanic_df.head())

#### before axis 0 drop ####


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


#### after axis 0 drop ####


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. ...",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, M...",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Ma...",male,2.0,3,1,349909,21.075,,S


*   axis : DataFrame의 로우를 삭제할 때는 axis=0, 칼럼을 삭제할 때는 axis=1 설정
*   원본 DataFrame은 유지하고 드롭된 DataFrame을 새롭게 객체 변수로 받고 싶다면 inplace=False 설정(디폴트 값 = False)
    
    예) titanic_drop_df = titanic_df.drop('Age_0', axis=1, inplace=False)
    
*   원본 DataFrame에 드롭된 결과를 적용할 경우에는 inplace=True 적용

    예) titanic_df.drop('Age_0', axis=1, inplace=True)

*   원본 DataFrame에서 드롭된 DataFrame을 다시 원본 DataFrame 객체 변수로 할당하면 원본 DataFrame에서 드롭된 결과를 적용할 경우와 같음(단, 기존 원본 DataFrame 객체 변수는 메모리에서 추후 제거됨)

    예) titanic_df = titanic_df.drop('Age_0', axis=1, inplace=False)



# Index 객체

판다스의 Index 객체는 RDBMS의 PK와 유사하게 DataFrame, Series의 레코드를 고유하게 식별하는 객체이다. DataFrame, Series에서 Index 객체만 추출하려면 DataFrame, index 또는 Series.index 속성을 통해 가능하다.

In [23]:
titanic_df = pd.read_csv('경로/titanic_train.csv')
indexes = titanic_df.index
print(indexes)
print('Index 객체 array 값 :\n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array 값 :
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 2

Index 객체는 식별성 데이터를 1차원 array로 가지고 있다. 또한 ndarray와 유사하게 단일 값 반환 및 슬라이싱도 가능.

In [24]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])
print(indexes[:5])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6
RangeIndex(start=0, stop=5, step=1)


한 번 만들어진 DataFrame 및 Series의 Index 객체는 함부로 변경할 수 없다.

In [25]:
indexes[0] = 5

TypeError: ignored

Series 객체는 Index 객체를 포함하지만 Series 객체에 연산 함수를 적용할 때 Index는 연산에서 제외된다. Index는 오직 식별용으로만 사용된다.

In [26]:
series_fair = titanic_df['Fare']
print('Fair Series max 값 :', series_fair.max())
print('Fair Series sum 값 :', series_fair.sum())
print('sum() Fair Series :', sum(series_fair))
print('Fair Series + 3:\n', (series_fair + 3).head(3))

Fair Series max 값 : 512.3292
Fair Series sum 값 : 28693.9493
sum() Fair Series : 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


DataFrame 및 Series에 reset_index() 메서드를 수행하면 새롭게 인덱스를 연속 숫자형으로 할당하며 기존 인덱스는 'index'라는 새로운 칼럼 명으로 추가한다.

In [27]:
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


reset_index()는 인덱스가 연속된 int 숫자형 데이터가 아닐 경우에 다시 이를 연속 int 숫자형 데이터로 만들 때 주로 사용한다.

예를 들어 Series와 value_counts()를 사용할 때 'Pclass' 칼럼 Series와 value_counts()를 수행하면 'Pclass' 고유값이 식별자 인덱스 역할을 했다. 이보다는 연속 숫자형 인덱스가 고유 식별자로 더 적합하다. reset_index()를 이용하여 인덱스를 다시 만들자. Series에 reset_index()를 적용하면 Series가 아닌 DataFrame이 반환된다.

In [28]:
print('#### before reset_index ####')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('\nvalue_counts 객체 변수 타입 :', type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)
print('\n#### After reset_index ####')
print(new_value_counts)
print('\nnew_value_counts 객체 변수 타입 :',type(new_value_counts))

#### before reset_index ####
3    491
1    216
2    184
Name: Pclass, dtype: int64

value_counts 객체 변수 타입 : <class 'pandas.core.series.Series'>

#### After reset_index ####
   index  Pclass
0      3     491
1      1     216
2      2     184

new_value_counts 객체 변수 타입 : <class 'pandas.core.frame.DataFrame'>


# 데이터 셀렉션 및 필터링

넘파이의 데이터 핸들링은 데이터 분석용으로 사용하기에는 편의성이 떨어진다. 

넘파이의 경우 '[]' 연산자 내 단일 값 추출, 슬라이싱, 팬시 인덱싱, 불린 인덱싱을 통해 데이터를 추출한다. 판다스의 경우 ix[], iloc[], loc[] 연산자를 통해 동일 작업을 수행한다.

판다스의 '[]' 연산자 안에 들어갈 수 있는 것은 칼럼 명 문자(또는 칼럼명의 리스트) 또는 인덱스로 변환가능한 표현식이다. 

In [29]:
print('단일 칼럼 데이터 추출:\n', titanic_df['Pclass'].head(3))
print('\n여러 칼럼의 데이터 추출:\n', titanic_df[['Survived', 'Pclass']].head(3))
print('[ ] 안에 숫자 index는 KeyError 오류 발생:\n', titanic_df[0])

단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 칼럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


KeyError: ignored

In [30]:
titanic_df[0:2] # 인덱스 형태로 변환가능한 표현식, 0:2 -> 처음 데이터 2개 추출

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [31]:
titanic_df[titanic_df['Pclass'] == 3].head(3) # 불린 인덱싱도 가능

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


*   DataFrame 바로 뒤의 연산자는 넘파이의 []나 Series의 []와 다르다
*   DataFrame 바로 뒤의 [] 내 입력 값은 컬럼명(또는 컬럼 리스트)을 지정해 칼럼 지정 연산을 사용하거나 불린 인덱스 용도로만 사용
*   DataFrame[0:2]와 같은 슬라이싱 연산으로 데이터 추출하는 방법은 사용하지 않는 것이 좋다.



#### 명칭 기반 인덱싱 & 위치 기반 인덱싱

명칭 기반 인덱싱 : 칼럼의 명칭(열 기준)을 기반으로 위치를 지정

위치 기반 인덱싱 : 0을 출발점으로 하는 가로축, 세로축 좌표 기반의 행, 열 위치를 기반으로 데이터 지정.

In [32]:
data = {'Name': ['Chulmin', 'Eunkyung','Jinwoong','Soobeom'],
        'Year': [2011, 2016, 2015, 2015],
        'Gender': ['Male', 'Female', 'Male', 'Male']
       }
data_df = pd.DataFrame(data, index=['one','two','three','four'])
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


#### DataFrame iloc[] 연산자

iloc[]는 위치 기반 인덱싱만 허용. 행, 열 값으로 integer 또는 integer형 의 슬라이싱, 팬시 리스트 값을 입력.

In [33]:
data_df.iloc[0, 0]

'Chulmin'

In [34]:
# 명칭 입력 시 오류발생
data_df.iloc[0, 'Name'] # data_df.iloc['one', 0]도 마찬가지

ValueError: ignored

#### DataFrame loc[] 연산자

loc[]은 명칭 기반으로 데이터를 추출한다. 행에는 DataFrame index값을, 그리고 열에는 칼럼 명을 입력.

In [35]:
data_df.loc['one', 'Name']

'Chulmin'

In [36]:
data_df.loc[0, 'Name'] # 0 인 행이 없으므로 오류

KeyError: ignored

In [37]:
# 슬라이싱
print('위치 기반 iloc slicing\n', data_df.iloc[0:2, 0], '\n')
print('명칭 기반 loc slicing\n', data_df.loc['one':'two', 'Name'])

위치 기반 iloc slicing
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object 

명칭 기반 loc slicing
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object


In [38]:
# 불린 인덱싱
titanic_df = pd.read_csv('경로/titanic_train.csv')
titanic_boolean = titanic_df[titanic_df['Age'] > 60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. ...",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. ...",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr...",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr...",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [39]:
titanic_df[titanic_df['Age'] > 60][['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [40]:
titanic_df.loc[titanic_df['Age'] >60, ['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [41]:
titanic_df[(titanic_df['Age'] > 60) & (titanic_df['Pclass'] == 1) & (titanic_df['Sex'] == 'female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


In [42]:
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass'] == 1
cond3 = titanic_df['Sex'] == 'female'
titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


# 정렬, Aggregation 함수, GroupBy 적용

#### DataFrame, Series 정렬 - sort_values()

sort_values() - RDBMS SQL의 order by 키워드와 유사

주요 파라미터 - by, ascending, inplace

ascending=False : 내림차순 정렬(default True)

inplace=False : sort_values()를 호출한 DataFrame은 그대로 유지, 정렬된 DataFrame을 결과로 반환. True 시 원본 DataFrame에 반영

In [43]:
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S


In [44]:
# 여러 개의 칼럼으로 정렬하려면 by에 리스트 형식으로 정렬하는 칼럼을 입력
titanic_sorted=titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


#### Aggregation 함수

DataFrame에서 min(), max(), sum(), count()와 같은 aggregation 함수의 적용은 RDBMS SQL의 aggregation 함수와 유사.

DataFrame의 경우 DataFrame에서 바로 aggregation을 호출할 경우 모든 칼럼에 해당 aggregation을 적용한다.

In [45]:
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

특정 칼럼에 aggregation 함수를 적용하기 위해서는 DataFrame에 대상 칼럼들만 추출해 aggregation을 적용

In [46]:
titanic_df[['Age', 'Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

#### groupby() 적용

DataFrame의 groupby()는 RDBMS SQL의 groupby 키워드와 유사하면서 다른 점이 있다.

DataFrame의 groupby() 사용 시 입력 파라미터 by에 칼럼에 입력하면 대상 칼럼으로 groupby되며, DataFrameGroupBy라는 또 다른 형태의 DataFrame을 반환.

In [47]:
titanic_groupby = titanic_df.groupby(by='Pclass')
type(titanic_groupby)

pandas.core.groupby.generic.DataFrameGroupBy

In [48]:
titanic_groupby = titanic_df.groupby(by='Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


SQL의 경우 group by 적용 시 여러 개의 칼럼에 aggregation 함수를 호출하려면 대상 칼럼을 모두 Select 절에 나열해야 한다. DataFrame의 groupby()에 특정 칼럼만 aggregation 함수를 적용하려면 groupby()로 반환된 DataFrameGroupBy 객체에 해당 칼럼을 필터링한 뒤 aggregation 함수를 적용한다.

In [49]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


DataFrame groupby()의 경우 적용하려는 여러 개의 aggregation 함수명을 DataFrameGroupBy 객체의 agg() 내에 인자로 입력해서 사용.

In [50]:
titanic_df.groupby('Pclass')['Age'].agg([max, min])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


agg() 내에 입력 값으로 딕셔너리 형태로 aggregation이 적용될 칼럼들과 aggregation 함수를 입력.

In [51]:
agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


# 결손 데이터 처리하기

판다스는 결손 데이터(Missing Data)를 처리하는 편리한 API를 제공. 결손 데이터는 칼럼에 값이 없는, 즉 NULL인 경우를 의미. 이를 넘파이의 NaN으로 표시한다.

머신러닝 알고리즘은 이 NaN 값을 처리하지 않으므로 이 값을 다른 값으로 대체해야한다. 또한 NaN 값은 평균, 총합 등의 함수 연산 시 제외된다. 특정 칼럼의 100개 데이터 중 10개가 NaN 값일 경우, 이 칼럼의 평균 값을 90개 데이터에 대한 평균입니다. NaN 여부를 확인하는 API는 isna()이며, NaN 값을 다른 값으로 대체하는 API는 fillna()이다.

#### isna()로 결손 데이터 여부 확인하기

DataFrame에 isna()를 수행하면 모든 칼럼의 값이 NaN인지 아닌지를 True나 False로 알려준다.

In [52]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


결손 데이터의 개수는 isna() 결과에 sum() 함수를 추가해 구할 수 있다. sum() 호출 시 True는 내부적으로 숫자 1로, False는 숫자 0으로 변환되므로 결손 데이터의 개수를 구할 수 있다.

In [53]:
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### fillna()로 결손 데이터 대체하기

fillna()를 이용하면 결손 데이터를 편리하게 다른 값으로 대체할 수 있다.

In [54]:
# titanic 데이터 세트의 "Cabin" 칼럼의 NaN값을 'C000'으로 대체
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


fillna()를 이용해 반환 값을 다시 받거나 inplace=True 파라미터를 fillna()에 추가해야 실제 데이터 세트 값이 변경된다.



In [55]:
# 'Age' 칼럼의 NaN 값을 평균 나이로, 'Embarked' 칼럼의 NaN 값을 'S'로 대체
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

# apply lambda 식으로 데이터 가공

판다스는 apply 함수에 lambda 식을 결합해 DataFrame이나 Series의 레코드별로 데이터를 가공하는 기능을 제공한다. 판다스의 경우 칼럼에 일괄적으로 데이터 가공하는 것이 속도 면에서 더 빠르나 복잡한 데이터 가공이 필요할 경우 어쩔 수 없이 apply lambda를 이용한다.

In [56]:
# 일반 함수
def get_square(a):
    return a**2
print(get_square(3))

9


In [57]:
# lambda
lambda_square = lambda x : x ** 2
print(lambda_square(3))

9


In [58]:
# lambda : 여러 개의 값을 입력 인자로 사용할 경우 map() 함수로 결합
a = [1, 2, 3]
squares = map(lambda x: x**2, a)
list(squares)

[1, 4, 9]

판다스 DataFrame의 lambda 식은 파이썬의 이러한 lambda 식을 그대로 적용.

In [59]:
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x: len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


lambda 식에서 if else절을 사용해 좀 더 복잡한 가공을 할 수 있다.

In [60]:
# 나이가 15세 미만이면 'Child', 그렇지 않으면 'Adult'
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x:'Child' if x <= 15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(10)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child
8,27.0,Adult
9,14.0,Child


In [62]:
# elif 적용
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: 'Child' if x<=15 else 'Adult' if x <= 60 else 'Elderly')
titanic_df['Age_cat'].value_counts()

Adult      786
Child       83
Elderly     22
Name: Age_cat, dtype: int64

In [63]:
# 더 많은 세분화하기
def get_category(age):
    cat = ''
    if age <= 5: cat='Baby'
    elif age <= 12: cat='Child'
    elif age <= 18: cat='Teenager'
    elif age <= 25: cat='Student'
    elif age <= 35: cat='Young Adult'
    elif age <= 60: cat='Adult'
    else: cat='Elderly'
    return cat

# lambda 식에서 위에서 생성한 get_category() 함수를 반환값으로 지정
# get_category(X)는 입력값으로 'Age' 칼럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: get_category(x))
titanic_df[['Age', 'Age_cat']].head(10)

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
5,29.699118,Young Adult
6,54.0,Adult
7,2.0,Baby
8,27.0,Young Adult
9,14.0,Teenager
