# **⭐️⭐️ Pandas ⭐️⭐️**

*출처 : 파이썬 머신러닝 완벽 가이드 (권철민 저)*

## **Pandas 개요 🤓**

### **📍 What is Pandas ?**

- 파이썬의 대표적인 데이터 처리 패키지
- 2차원 데이터 처리에 특화되어 있으며, 맷플롯립을 호출해 쉽게 시각화 기능을 지원 

## **Get into Pandas 👾**

### **📍 Pandas 불러오기**

In [2]:
import pandas as pd

### **📍 Pandas Data Type**

1. Series : Index와 단 하나의 칼럼으로 구성된 데이터 구조체
2. Data Frame : 칼럼이 여러 개인 데이터 구조체 (여러 개의 Series로 이루어졌다고 할 수 있다.)

### **📍 데이터 불러오기**

In [3]:
titanic_df = pd.read_csv('./Data/titanic_train.csv')

### **📍 데이터 확인하기**

#### **1. `.head()`**

- 설명

In [4]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


#### **2. `.shape()`**

- 설명

In [5]:
titanic_df.shape

(891, 12)

#### **3. `.info()`**

- 설명

In [7]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### **4. `.describe()`**

- 설명

In [8]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


##### **n-percentile (25%, 50%, 75%)**

Pclass 에 해당하는 데이터 값들을 오름차순으로 정렬했을 때 (낮은 값 -> 높은 값)
- 앞 25% 구간에 해당하는 데이터는 2
- 50% 구간에 해당하는 데이터는 3
- 75% 구간에 해당하는 데이터는 3

`min` ~ `max` 가 `1` ~ `3` 이고, 각 `25%, 50%, 70%` 에 해당하는 데이터들이 `2, 3, 3` 인 것을 미루어 봤을 때,
- Pclass의 데이터는 1, 2, 3 으로 이루어진 것을 짐작할 수 있다.

In [6]:
set(titanic_df['Pclass'].values)

{1, 2, 3}

In [13]:
titanic_pclass = titanic_df['Pclass'].value_counts()
titanic_pclass

Pclass
3    491
1    216
2    184
Name: count, dtype: int64

#### **5. `df[]`**

* 특정 칼럼의 데이터를 시리즈 (; Index와 단 하나의 칼럼으로 구성된 세트) 형태로 반환

#### **6. `.value_counts()`**

* 특정 칼럼의 데이터를 시리즈 (; Index와 단 하나의 칼럼으로 구성된 세트) 형태로 반환
-----------------------------------------------------------------------
* 기본적으로 Null 값을 무시하고 결괏값을 내놓기 때문에 주의해야 한다.
* 기본값은 dropna=True 로 `.value_counts(dropna=True)` 와 동일하고, Null 값을 제외하고 반환한다.
* Null 값을 포함해서 카운트 하고 싶다면, `.value_counts(dropna=False)`

In [25]:
titanic_df['Embarked'].value_counts()

Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [26]:
titanic_df['Embarked'].value_counts(dropna=False)

Embarked
S      644
C      168
Q       77
NaN      2
Name: count, dtype: int64