Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# Data Handling - Pandas  
> **Pandas**  
파이썬에서 데이터 핸들링을 가능하게 해주는 가장 인기 있는 라이브러리

> **DataFrame**  
DataFrame은 Pandas의 핵심 객체, DataFrame은 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체

> **Index**  
RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값

> **Series**  
칼럼이 하나뿐인 데이터 구조체  
(cf) DataFrame은 칼럼이 여러 개인 데이터 구조체

## 1. 파일을 DataFrame으로 로딩, 판다스 기본 API  

### 1-1. 데이터 다운로드  
Kaggle에서 타이타닉 탑승자 데이터 파일 내려받기  
https://www.kaggle.com/c/titanic/data  
train.csv를 Jupyter Notebook의 디렉터리로 titanic_train.csv라는 파일명으로 변경해서 내려받기  


### 1-2. DataFrame으로 로딩, 기본 정보 확인
- **pd.read_csv(filepath, [sep=','])**  
: 호출 시 파일명 인자로 들어온 파일을 로딩해 DataFrame 객체로 반환  
별다른 파라미터 지정이 없을 경우 파일의 맨 처음 로우를 칼럼명으로 인지해서 칼럼으로 변환하며, 콤마로 분리된 데이터값들이 해당 칼럼에 맞게 할당됨  
  - filepath : 로드하려는 데이터 파일의 경로를 포함한 파일명 입력  
  - sep : 필드 구분 문자, default값은 콤마(`,`)로 할당됨  

- **DataFrame.head()**  
: DataFrame의 맨 앞에 있는 N개의 로우 반환, default는 5개  

- **DataFrame.shape**  
: DataFrame의 행과 열을 튜플 형태로 반환  

- **DataFrame.info()**  
: 총 데이터 건수(전체 row 수, column 수), 칼럼별 데이터 타입, Null 건수, 전체 칼럼의 타입 요약 등을 알려주는 메서드  

- **DataFrame.describe()**  
: 숫자 형 칼럼에 대한 개략적인 데이터 분포도를 확인 -> 머신러닝 성능 향상시키는 중요한 요소  
  - count : Not Null인 데이터 건수  
  - mean : 전체 데이터의 평균값  
  - std : 표준편차  
  - min : 최솟값
  - max : 최댓값
  - n-percentile : 25/50/75 percentile 값  

- **DataFrame['칼럼명']**  
: Series 형태로 특정 칼럼 데이터 세트가 반환됨

- **DataFrame['칼럼명'].value_counts()**  
: 해당 칼럼값의 유형과 건수를 반환, 데이터의 분포도를 확인하는 데 매우 유용한 함수  
Series 객체만 value_counts() 메서드를 가짐

In [None]:
import pandas as pd

# 타이타닉 탐승자 데이터를 DataFrame으로 로딩
titanic_df = pd.read_csv('titanic_train.csv')
print('titanic_df 변수 type:', type(titanic_df))
titanic_df

titanic_df 변수 type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [None]:
# DataFrame의 맨 앞 3개의 로우를 반환
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
# DataFrame의 행과 열 크기 알아보기
titanic_df.shape

(891, 12)

In [None]:
# 총 데이터 건수, 데이터 타입, Null 개수 등을 확인
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
# 숫자 형 칼럼에 대한 개략적인 데이터 분포도 확인
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
# 숫자형 카테고리 칼럼인 Pclass 칼럼 데이터 값의 유형과 건수 확인
titanic_df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64