# **⭐️⭐️ Pandas ⭐️⭐️**

*출처 : 파이썬 머신러닝 완벽 가이드 (권철민 저)*

## **Pandas 개요 🤓**

### **📍 What is Pandas ?**

- 파이썬의 대표적인 데이터 처리 패키지
- 2차원 데이터 처리에 특화되어 있으며, 맷플롯립을 호출해 쉽게 시각화 기능을 지원 

## **Get into Pandas 👾**

### **📍 Pandas 불러오기**

In [27]:
import pandas as pd

### **📍 Pandas Data Type**

1. Series : Index와 단 하나의 칼럼으로 구성된 데이터 구조체
2. Data Frame : 칼럼이 여러 개인 데이터 구조체 (여러 개의 Series로 이루어졌다고 할 수 있다.)

### **📍 데이터 불러오기**

In [28]:
titanic_df = pd.read_csv('./Data/titanic_train.csv')

### **📍 데이터 확인하기**

#### **1. `.head()`**

- 데이터의 맨 앞에 있는 N개의 로우를 반환
- 기본값 () 은 5개

In [29]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


#### **2. `.shape()`**

- 행과 열의 갯수를 튜플 형태로 반환
- (row, col)

In [30]:
titanic_df.shape

(891, 12)

#### **3. `.info()`**

- 행과 열의 갯수
- 각 컬럼의 데이터 타입, Not Null 인 건수
- 전체 데이터 타입의 요약

In [31]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### **4. `.describe()`**

- 숫자형 데이터에 대한 n-percentile 분포도 (25%, 50%, 75%) / 최댓값, 최솟값 / 평균값 / 표준편차
- 이 메서드만으로 정확한 분포도를 알기는 무리지만, 개략적인 수준의 분포도를 확인할 수 있어 유용하다.

In [32]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


##### **n-percentile (25%, 50%, 75%)**

Pclass 에 해당하는 데이터 값들을 오름차순으로 정렬했을 때 (낮은 값 -> 높은 값)
- 앞 25% 구간에 해당하는 데이터는 2
- 50% 구간에 해당하는 데이터는 3
- 75% 구간에 해당하는 데이터는 3

`min` ~ `max` 가 `1` ~ `3` 이고, 각 `25%, 50%, 70%` 에 해당하는 데이터들이 `2, 3, 3` 인 것을 미루어 봤을 때,
- Pclass의 데이터는 1, 2, 3 으로 이루어진 것을 짐작할 수 있다.

In [33]:
set(titanic_df['Pclass'].values)

{1, 2, 3}

In [34]:
titanic_pclass = titanic_df['Pclass'].value_counts()
titanic_pclass

Pclass
3    491
1    216
2    184
Name: count, dtype: int64

#### **5. `df[]`**

* 특정 칼럼의 데이터를 시리즈 (; Index와 단 하나의 칼럼으로 구성된 세트) 형태로 반환

In [36]:
titanic_df['Sex']

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: Sex, Length: 891, dtype: object

#### **6. `.value_counts()`**

* 특정 칼럼의 데이터값 건수를 시리즈 형태로 반환
* 기본적으로 Null 값을 무시하고 결괏값을 내놓기 때문에 주의해야 한다.
* 기본값은 dropna=True 로 `.value_counts(dropna=True)` 와 동일하고, Null 값을 제외하고 반환한다.
* Null 값을 포함해서 카운트 하고 싶다면, `.value_counts(dropna=False)`

In [37]:
titanic_df['Embarked'].value_counts()

Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [38]:
titanic_df['Embarked'].value_counts(dropna=False)

Embarked
S      644
C      168
Q       77
NaN      2
Name: count, dtype: int64

### **📍 DF <-> 리스트/딕셔너리/ndarray 상호변환**

- 특히 사이킷런의 많은 API는 DataFrame을 인자로 입력받을 수 있지만, 기본적을 넘파이 ndarray를 입력 인자로 사용하는 경우가 대부분이기 때문에, DF와 ndarray 상호 간의 변환은 매우 빈번하게 발생한다.

#### **1. 리스트/딕셔너리/ndarray -> DF**

- 리스트/ndarray : column 수대로 column 지정
- 딕셔너리 : 문자열 column명으로 매핑, 리스트/ndarray 칼럼 데이터로 values 매핑

In [40]:
import numpy as np

In [41]:
# 1차원 리스트/ndarray -> DF

col_name1 = ['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)

df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트 to DF:\n', df_list1)

df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray to DF:\n', df_array1)

1차원 리스트 to DF:
    col1
0     1
1     2
2     3
1차원 ndarray to DF:
    col1
0     1
1     2
2     3


In [42]:
# 2차원 리스트/ndarray -> DF

col_name2 = ['col1', 'col2', 'col3']
list2 = [[1, 2, 3],
        [4, 5, 6]]
array2 = np.array(list2)

df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트 to DF:\n', df_list2)

df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray to DF:\n', df_array2)

2차원 리스트 to DF:
    col1  col2  col3
0     1     2     3
1     4     5     6
2차원 ndarray to DF:
    col1  col2  col3
0     1     2     3
1     4     5     6


In [43]:
# 딕셔너리 -> DF

dict = {'col1':[1,11], 'col2':[2,22], 'col3':[3,33]}
df_dict = pd.DataFrame(dict)
print('dict to DF:\n', df_dict)

dict to DF:
    col1  col2  col3
0     1     2     3
1    11    22    33


#### **2. DF -> 리스트/딕셔너리/ndarray**

- **DF -> ndarray** (`.values()`)
  - 데이터 핸들링은 DataFrame 을 이용하더라도, 머신러닝 패키지의 입력 인자 등에 적용하기 위해 ndarray 로 변환해야하기 때문에 반드시 기억하기
- **DF -> 리스트** (`.values.tolist()`)
- **DF -> 딕셔너리** (`.to_dict()`)
  - (`.to_dict()`) : 인자 미적용시, 값은 set로 반환
  - (`.to_dict('list')`) : 인자로 'list'를 입력하면 값은 리스트형으로 반환

In [45]:
df_dict

Unnamed: 0,col1,col2,col3
0,1,2,3
1,11,22,33


In [47]:
# DF -> ndarray

array3 = df_dict.values
print('Type: ', type(array3))
print('Shape: ', array3.shape)
print('DF to ndarray:\n', array3)

Type:  <class 'numpy.ndarray'>
Shape:  (2, 3)
DF to ndarray:
 [[ 1  2  3]
 [11 22 33]]


In [50]:
# DF -> list

list3 = df_dict.values.tolist()
print('Type: ', type(list3))
print('DF to list:\n', list3)

Type:  <class 'list'>
DF to list:
 [[1, 2, 3], [11, 22, 33]]


In [53]:
# DF -> dict (list 인자 미적용)

dict3 = df_dict.to_dict()
print('Type: ', type(dict3))
print('DF to dict:\n', dict3)

Type:  <class 'dict'>
DF to dict:
 {'col1': {0: 1, 1: 11}, 'col2': {0: 2, 1: 22}, 'col3': {0: 3, 1: 33}}


In [54]:
# DF -> dict (list 인자)

dict4 = df_dict.to_dict('list')
print('Type: ', type(dict4))
print('DF to dict:\n', dict4)

Type:  <class 'dict'>
DF to dict:
 {'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


### **📍 Column 데이터 세트 생성/수정**

#### **?**

### **📍 데이터 삭제**

#### **?**

In [67]:
col_name4 = ['A', 'B', 'C']
array4 = np.array([[1, 2, 3],
                  [4, 5, 6]])
df4 = pd.DataFrame(array4, columns=col_name4)
df4

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


In [68]:
df4.drop(['A'], axis=1)

Unnamed: 0,B,C
0,2,3
1,5,6


In [69]:
df4.drop(0, axis=0)

Unnamed: 0,A,B,C
1,4,5,6


In [70]:
df4.drop(['A'], axis=1, inplace=True)

In [71]:
df4

Unnamed: 0,B,C
0,2,3
1,5,6


In [72]:
df4.drop(0, axis=0, inplace=True)

In [73]:
df4

Unnamed: 0,B,C
1,5,6


In [63]:
df4 = df4.drop(['B'], axis=1, inplace=True)

In [66]:
df4

### **📍 Index 객체**

#### **?**

In [76]:
indexes = titanic_df.index

In [85]:
print(indexes)
print(indexes.values.shape)
print(indexes[:50].values)
print(indexes.values[:50])
print(indexes[50])

RangeIndex(start=0, stop=891, step=1)
(891,)
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49]
50


In [87]:
titanic_df['Fare'][:3]

0     7.2500
1    71.2833
2     7.9250
Name: Fare, dtype: float64

In [None]:
tita

### **📍 데이터 셀렉션/필터링**

#### **?**

### **📍 정렬, Aggregation, Groupby**

#### **?**

### **📍 결측 데이터 처리**

#### **?**

### **📍 lambda식으로 데이터 가공**

#### **?**