### Data handling(Pandas)
판다스는 파이썬에서 데이터 처리를 위해 존재하는 가장 인기있는 라이브러리이다. 일반적으로 대부분의 데이터 세트는 2차원 데이터이다. 이 말인 즉슨, 행(row)와 열(column)으로 구성되어 있다는 것이다. 판다스는 이처럼 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능을 제공한다. Numpy를 통한 데이터 가공은 Pandas에 비해서는 어렵다고 할 수 있다. Pandas는 고수준 API를 지원하는 반면, Numpy는 저수준 API를 지원하기 때문이다.

In [8]:
import pandas as pd

# load csv file
titanic_df = pd.read_csv('./data/titanic_train.csv')
titanic_df.head(3) # DataFrame의 최상단에 위치한 3건의 데이터만 출력

print(f'titanic 변수의 type : {type(titanic_df)}')
print(f'titanic_df의 크기 : {titanic_df.shape}') # (행, 열) 형태로 반환
print('-------------구분선----------------')
titanic_df.info() # type, row, columns, nan에 대한 정보값 출력
titanic_df.describe() # 숫자형 데이터값의 n-percentile분포, 평균값, 최대, 최소값 출력

titanic 변수의 type : <class 'pandas.core.frame.DataFrame'>
titanic_df의 크기 : (891, 12)
-------------구분선----------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### df.describe()

|요소|설명|
|---|---|
|count|결측값을 제외한 값의 개수(ex. 총 891개의 데이터 중 결측치를 제외한 건수 = 714)|
|mean|전체 데이터의 평균값|
|std|표준편차|
|min|해당 열의 모든 값들 중 최소값|
|max|해당 열의 모든 값들 중 최대값|
|25%~75%|백분위수에서 25%, 50%, 75%값|

In [9]:
# df.describe()를 활용한 데이터 분석 예시

titanic_df.describe()
"""
1. PassengerID 칼럼은 승객 ID를 식별하는 칼럼이므로 1~891까지의 숫자가 할당되어 분석에 의미있는 속성은 아닐 것이다.
2. Survived컬럼의 경우 최소값이 0, 25~75%도 0, max도 1 이므로 0과 1로 이루어진 숫자형 카테고리 컬럼일 것이다.
"""

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### 컬럼 분포 살펴보기(df['example'].value_counts())

DataFrame의 []연산자 내에 컬럼명을 입력하면 Series형태로 특정 컬럼 데이터 세트가 반환된다. 이렇게 반환된 Series객체에 `value_counts()` 메소드를 호출하면 해당 칼럼값의 유형과 건수를 확인할 수 있다.

In [11]:
# Pclass 라는 컬럼의 값 분포 확인하기
titanic_df['Pclass'].value_counts() # 3이라는 값이 491개, 1이라는 값이 216개, 2라는 값이 184개가 존재함을 확인할 수 있다.

# value_counts() 메소드의 옵션들 중에서 dropna 라는 옵션이 존재하는데, default값은 True이며, 결측치가 존재하는지 확인하려면 dropna=False로 설정하면 된다.
titanic_df['Pclass'].value_counts(dropna=False) # 총 행의 개수는 891개였고, 491+216+184 = 891이므로, Pclass라는 컬럼에 결측치는 존재하지 않는다.

3    491
1    216
2    184
Name: Pclass, dtype: int64

### Slicing
DataFrame을 슬라이싱하는 방법은 두 가지 방법이 있다.
|함수|설명|
|---|---|
|df.iloc()|행과 열의 인덱스를 기준으로 슬라이싱|
|df.loc()|행과 열의 명칭을 기준으로 슬라이싱|

In [23]:
# 행과 열의 인덱스를 기준으로 슬라이싱
titanic_df.iloc[0:3, 0:5] # iloc[rows, columns]

# 행과 열의 명칭을 기반으로 슬라이싱
titanic_df.loc[0, 'Pclass'] # loc[row's index, column's name]

3

### Sort, Aggregation function, groupb

In [39]:
# sort : sort_values()
titanic_df.sort_values(by=['Name']) # Name컬럼을 기준으로 값을 정렬. default값은 오름차순 정렬을 의미하는 ascending=True이며, 내림차순 정렬은 False로 바꾸어 주면 된다.

# aggregation functions
titanic_df['Pclass'].max() # Pclass 컬럼의 최대값
titanic_df['Age'].min() # Age 컬럼의 최소값
# 이외에도 sum(), count()의 함수가 존재한다.

# groupby
titanic_group = titanic_df.groupby('Pclass').count()
titanic_df.count() # 원 DataFrame에 count를 적용하면 모든 컬럼에 대해 count를 실시한 결과를 반환하는데 반해,
titanic_group # groupby를 호출해 반환한 결과에 count를 적용하면 기준이 된 컬럼(Pclass)를 제외한 컬럼에 일괄 적용하여 반환한다.

titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491
