# <a id='toc1_'></a>[Pandas Tutorial](#toc0_)
---

**Table of contents**<a id='toc0_'></a>    
- [Pandas Tutorial](#toc1_)    
  - [(1) 시리즈(Series)와 데이터프레임(DataFrame) 이해하기](#toc1_1_)    
  - [(2) 데이터프레임 생성하기](#toc1_2_)    
    - [리스트를 이용하여 데이터프레임 생성하기](#toc1_2_1_)    
    - [딕셔너리를 이용하여 데이터프레임 생성하기](#toc1_2_2_)    
    - [csv 파일의 내용을 불러와서 데이터프레임 생성하기](#toc1_2_3_)    
  - [(3) 데이터프레임 훑어보기](#toc1_3_)    
  - [(4) 데이터프레임 컬럼 생성과 수정](#toc1_4_)    
  - [(5) 데이터프레임 데이터 삭제](#toc1_5_)    
  - [(6) 데이터프레임 데이터 조회](#toc1_6_)    
    - [`iloc` 함수](#toc1_6_1_)    
    - [`loc` 함수](#toc1_6_2_)    
  - [(7) 데이터프레임 데이터 정렬과 집계](#toc1_7_)    
  - [(8) 데이터프레임 결측치 처리하기](#toc1_8_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

---

## <a id='toc1_1_'></a>[(1) 시리즈(Series)와 데이터프레임(DataFrame) 이해하기](#toc0_)

- **시리즈(Series)** 는 1차원 배열 형태를 가진 자료 구조이다.

In [1]:
import pandas as pd

In [2]:
s = pd.Series([1, 3, 5, 6, 8])    # 시리즈 생성

print(s)
print(s.index)    # 인덱스 확인
print(s.values)   # 값 확인

0    1
1    3
2    5
3    6
4    8
dtype: int64
RangeIndex(start=0, stop=5, step=1)
[1 3 5 6 8]


- **데이터프레임(DataFrame)** 은 2차원 행렬 구조의 테이블 형태로 구성된다.
- <ins>행 방향</ins>의 **인덱스(Index)** 와 <ins>열 방향</ins>의 **컬럼(Column)** 이 존재한다.

In [3]:
v = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
i = ["첫째행", "둘째행", "셋째행"]
c = ["컬럼1", "컬럼2", "컬럼3"]

df = pd.DataFrame(v, index=i, columns=c)
print(df)

     컬럼1  컬럼2  컬럼3
첫째행    1    2    3
둘째행    4    5    6
셋째행    7    8    9


## <a id='toc1_2_'></a>[(2) 데이터프레임 생성하기](#toc0_)

- 데이터프레임은 리스트(List)와 딕셔너리(Dictionary)를 활용해서 생성할 수 있다.

### <a id='toc1_2_1_'></a>[리스트를 이용하여 데이터프레임 생성하기](#toc0_)

- 인덱스를 지정하지 않을 경우, 자동으로 `0`부터 생성된다.

In [4]:
# 리스트로 데이터프레임 생성하기
d = [['100', '강백호', 9.7],
     ['101', '송태섭', 8.9],
     ['102', '서태웅', 9.3],
     ['103', '셀리나', 6.1]]
df = pd.DataFrame(d, columns=["번호", "이름", "점수"])

print(df)

    번호   이름   점수
0  100  강백호  9.7
1  101  송태섭  8.9
2  102  서태웅  9.3
3  103  셀리나  6.1


### <a id='toc1_2_2_'></a>[딕셔너리를 이용하여 데이터프레임 생성하기](#toc0_)

- 딕셔너리의 키는 컬럼으로 지정된다.
- 행이 아닌 열 방향으로 데이터가 할당된다.

In [5]:
# 딕셔너리로 데이터프레임 생성하기
d = {'번호': ['100', '101', '102', '103'], 
     '이름': ['강백호', '송태섭', '서태웅', '셀리나'], 
     "점수": [9.7, 8.9, 9.3, 6.1]}
df = pd.DataFrame(d)

print(df)

    번호   이름   점수
0  100  강백호  9.7
1  101  송태섭  8.9
2  102  서태웅  9.3
3  103  셀리나  6.1


### <a id='toc1_2_3_'></a>[csv 파일의 내용을 불러와서 데이터프레임 생성하기](#toc0_)

- Pandas는 `csv`, `tab`과 같은 다양한 유형의 분리 문자로 컬럼을 분리한 파일을 손쉽게 데이터프레임으로 로딩할 수 있게 해준다.
- csv 파일의 첫 번째 줄에 있는 컬럼 문자열이 데이터프레임의 컬럼으로 자동 할당된다.

In [6]:
penguin_df = pd.read_csv('../datasets/Part2/penguin_X_train.csv')

print("penguine 변수 type : ", type(penguin_df))
print(penguin_df)

penguine 변수 type :  <class 'pandas.core.frame.DataFrame'>
       species     island     sex  bill_length_mm  bill_depth_mm  \
0       Adelie  Torgersen     NaN            42.0           20.2   
1       Gentoo     Biscoe  FEMALE            43.5           15.2   
2       Adelie  Torgersen    MALE            42.8           18.5   
3    Chinstrap      Dream    MALE            53.5           19.9   
4       Gentoo     Biscoe    MALE            50.2           14.3   
..         ...        ...     ...             ...            ...   
235  Chinstrap      Dream  FEMALE            46.6           17.8   
236     Gentoo     Biscoe    MALE            49.8           15.9   
237     Adelie  Torgersen  FEMALE            34.6           17.2   
238  Chinstrap      Dream  FEMALE            45.9           17.1   
239     Gentoo     Biscoe  FEMALE            41.7           14.7   

     flipper_length_mm  
0                190.0  
1                213.0  
2                195.0  
3                205.0  


- `csv` 뿐만 아니라 다른 필드 구분 문자 기반의 파일 포맷도 데이터프레임으로 변환이 가능하다.

```python
data_frame = pd.read_csv('파일_경로', sep='\t')    # 탭으로 필드가 구분되어 있을 경우
```

## <a id='toc1_3_'></a>[(3) 데이터프레임 훑어보기](#toc0_)

- 데이터프레임을 훑어보기 위해 제일 많이 사용하는 함수로 `head` 함수와 `shape` 함수가 있다.

In [7]:
print("DataFrame 크기 : ", penguin_df.shape)    # 행과 열의 정보를 튜플 형태로 출력
print(penguin_df.head(5))    # 맨 앞에 있는 5개의 행 출력

DataFrame 크기 :  (240, 6)
     species     island     sex  bill_length_mm  bill_depth_mm  \
0     Adelie  Torgersen     NaN            42.0           20.2   
1     Gentoo     Biscoe  FEMALE            43.5           15.2   
2     Adelie  Torgersen    MALE            42.8           18.5   
3  Chinstrap      Dream    MALE            53.5           19.9   
4     Gentoo     Biscoe    MALE            50.2           14.3   

   flipper_length_mm  
0              190.0  
1              213.0  
2              195.0  
3              205.0  
4              218.0  


In [8]:
print(penguin_df.info())    # Non-Null 데이터 개수, 컬럼 타입, 기초 통계 정보 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240 entries, 0 to 239
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            240 non-null    object 
 1   island             240 non-null    object 
 2   sex                232 non-null    object 
 3   bill_length_mm     238 non-null    float64
 4   bill_depth_mm      238 non-null    float64
 5   flipper_length_mm  238 non-null    float64
dtypes: float64(3), object(3)
memory usage: 11.4+ KB
None


In [9]:
print(penguin_df.describe())     # 숫자형 데이터의 개수, 평균값, 표준편차, 최솟값, 사분위수값, 최댓값 확인

       bill_length_mm  bill_depth_mm  flipper_length_mm
count      238.000000     238.000000         238.000000
mean        43.948739      17.205462         200.684874
std          5.475004       1.973498          14.110080
min         32.100000      13.200000         172.000000
25%         39.200000      15.700000         190.000000
50%         44.700000      17.300000         197.000000
75%         48.700000      18.700000         213.000000
max         58.000000      21.500000         231.000000


<div class="alert alert-danger">
    <b>count</b> : Not-Null 데이터 건수 <br/>
    <b>mean</b> : 데이터 평균값 <br/>
    <b>std</b> : 데이터 표준편차 <br/>
    <b>min</b> : 데이터 최솟값 <br/>
    <b>25%</b> : 제1사분위수 값 <br/>
    <b>50%</b> : 제2사분위수 값 <br/>
    <b>75%</b> : 제3사분위수 값 <br/>
    <b>max</b> : 데이터 최댓값
</div>

- 데이터프레임의 `[ ]` 연산자 내부에 `컬럼명`을 입력하면 해당 컬럼에 해당하는 <ins>시리즈</ins> 객체를 반환한다.
- 이렇게 변환된 시리즈 객체가 어떤 값으로 구성되어 있는지 알아보기 위해 `head` 함수를 이용할 수 있다.

In [10]:
penguin_bill_length_mm = penguin_df['bill_length_mm']    # bill_length_mm 컬럼 선택

print(penguin_bill_length_mm.head())    # 모든 시리즈와 데이터프레임은 인덱스를 반드시 가진다.

0    42.0
1    43.5
2    42.8
3    53.5
4    50.2
Name: bill_length_mm, dtype: float64


- `value_counts` 함수를 사용하여 해당 컬럼 값의 유형과 건수를 확인할 수 있다. (데이터의 분포도를 확인하는데 매우 유용하다.) 

In [11]:
value_counts = penguin_bill_length_mm.value_counts()    # 해당 컬럼 값의 유형과 건수 확인

print(value_counts)    # 데이터 건수가 많은 순서로 정렬되어 값을 반환

bill_length_mm
41.1    5
45.2    5
37.8    5
50.8    4
46.2    4
       ..
58.0    1
46.0    1
38.7    1
33.1    1
41.7    1
Name: count, Length: 136, dtype: int64


## <a id='toc1_4_'></a>[(4) 데이터프레임 컬럼 생성과 수정](#toc0_)

- 데이터프레임의 컬럼 데이터 세트 **생성** 과 **수정** 역시 `[]` 연산자를 이용해 쉽게 할 수 있다.

In [12]:
penguin_df['flipper_length_mm'] = 0

print(penguin_df.head(3))

  species     island     sex  bill_length_mm  bill_depth_mm  flipper_length_mm
0  Adelie  Torgersen     NaN            42.0           20.2                  0
1  Gentoo     Biscoe  FEMALE            43.5           15.2                  0
2  Adelie  Torgersen    MALE            42.8           18.5                  0


In [13]:
penguin_df['new_bill_depth_mm'] = penguin_df['bill_length_mm'] * 10    # 기존의 컬럼 시리즈의 데이터를 이용해 새로운 컬럼 시리즈 만들기 (new_bill_depth_mm)

print(penguin_df)

       species     island     sex  bill_length_mm  bill_depth_mm  \
0       Adelie  Torgersen     NaN            42.0           20.2   
1       Gentoo     Biscoe  FEMALE            43.5           15.2   
2       Adelie  Torgersen    MALE            42.8           18.5   
3    Chinstrap      Dream    MALE            53.5           19.9   
4       Gentoo     Biscoe    MALE            50.2           14.3   
..         ...        ...     ...             ...            ...   
235  Chinstrap      Dream  FEMALE            46.6           17.8   
236     Gentoo     Biscoe    MALE            49.8           15.9   
237     Adelie  Torgersen  FEMALE            34.6           17.2   
238  Chinstrap      Dream  FEMALE            45.9           17.1   
239     Gentoo     Biscoe  FEMALE            41.7           14.7   

     flipper_length_mm  new_bill_depth_mm  
0                    0              420.0  
1                    0              435.0  
2                    0              428.0  
3      

In [14]:
penguin_df['new_bill_depth_mm'] = penguin_df['new_bill_depth_mm'] / 3    # 컬럼 값 일괄 수정

print(penguin_df.head(3))

  species     island     sex  bill_length_mm  bill_depth_mm  \
0  Adelie  Torgersen     NaN            42.0           20.2   
1  Gentoo     Biscoe  FEMALE            43.5           15.2   
2  Adelie  Torgersen    MALE            42.8           18.5   

   flipper_length_mm  new_bill_depth_mm  
0                  0         140.000000  
1                  0         145.000000  
2                  0         142.666667  


In [15]:
value_counts = penguin_df['new_bill_depth_mm'].value_counts()    # 데이터 분포도 확인

print(value_counts)

new_bill_depth_mm
137.000000    5
150.666667    5
126.000000    5
169.333333    4
154.000000    4
             ..
193.333333    1
153.333333    1
129.000000    1
110.333333    1
139.000000    1
Name: count, Length: 136, dtype: int64


## <a id='toc1_5_'></a>[(5) 데이터프레임 데이터 삭제](#toc0_)

```python
drop(labels, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
```

- `axis`
    - `0`
        - <ins>행 방향</ins> 데이터 삭제
        - 일반적으로 기존 컬럼 값을 가공해서 ***새로운 컬럼을 만들고 삭제*** 하는 경우가 많아 자주 사용된다.
    - `1`
        - <ins>컬럼 방향</ins> 데이터 삭제
        - ***이상치 데이터를 삭제*** 하는 경우에 주로 사용

In [16]:
penguin_drop_df = penguin_df.drop('new_bill_depth_mm', axis=1)     # 컬럼 방향으로 데이터 삭제

print(penguin_drop_df.head(3))

  species     island     sex  bill_length_mm  bill_depth_mm  flipper_length_mm
0  Adelie  Torgersen     NaN            42.0           20.2                  0
1  Gentoo     Biscoe  FEMALE            43.5           15.2                  0
2  Adelie  Torgersen    MALE            42.8           18.5                  0


In [17]:
penguin_copy_df = penguin_df.copy()    # 실습을 위해 기존의 데이터프레임 복사
drop_result = penguin_copy_df.drop(['bill_depth_mm', 'sex'], axis=1, inplace=True)    
# inplace=True 옵션을 추가할 경우, drop 함수를 사용할 때 원 데이터프레임(penguin_copy_df)의 데이터를 삭제한다.
# 여러 개의 컬럼을 삭제할 경우, 삭제하고자 하는 컬럼명을 리스트에 넣어서 labels 영역에 넣어준다.

print("drop_result 반환값 : ", drop_result)
print(penguin_copy_df.head(3))

drop_result 반환값 :  None
  species     island  bill_length_mm  flipper_length_mm  new_bill_depth_mm
0  Adelie  Torgersen            42.0                  0         140.000000
1  Gentoo     Biscoe            43.5                  0         145.000000
2  Adelie  Torgersen            42.8                  0         142.666667


In [18]:
penguin_drop_df = penguin_df.drop([0, 1, 2], axis=0)    # 0행, 1행, 2행을 삭제

print(penguin_drop_df.head(3))

     species  island     sex  bill_length_mm  bill_depth_mm  \
3  Chinstrap   Dream    MALE            53.5           19.9   
4     Gentoo  Biscoe    MALE            50.2           14.3   
5     Adelie   Dream  FEMALE            36.5           18.0   

   flipper_length_mm  new_bill_depth_mm  
3                  0         178.333333  
4                  0         167.333333  
5                  0         121.666667  


## <a id='toc1_6_'></a>[(6) 데이터프레임 데이터 조회](#toc0_)

- NumPy의 `[]` 연산자는 <ins>행의 위치, 열의 위치, 슬라이싱 범위</ins> 등을 지정해 데이터를 가져올 수 있다.
- Pandas의 데이터프레임 바로 뒤에 있는 `[]` 연산자에는 <ins>컬럼명 문자 또는 인덱스</ins>로, 변환 가능한 표현식이다.

In [19]:
print("단일 컬럼 데이터 조회 :\n", penguin_df['new_bill_depth_mm'])
print("\n복수 컬럼 데이터 조회 : \n", penguin_df[['new_bill_depth_mm', 'sex']].head(3))    # 리스트 형태로 조회할 컬럼명 지정

단일 컬럼 데이터 조회 :
 0      140.000000
1      145.000000
2      142.666667
3      178.333333
4      167.333333
          ...    
235    155.333333
236    166.000000
237    115.333333
238    153.000000
239    139.000000
Name: new_bill_depth_mm, Length: 240, dtype: float64

복수 컬럼 데이터 조회 : 
    new_bill_depth_mm     sex
0         140.000000     NaN
1         145.000000  FEMALE
2         142.666667    MALE


In [20]:
print(penguin_df[0:3])    # 첫 3개 행의 데이터 추출 (슬라이싱)

  species     island     sex  bill_length_mm  bill_depth_mm  \
0  Adelie  Torgersen     NaN            42.0           20.2   
1  Gentoo     Biscoe  FEMALE            43.5           15.2   
2  Adelie  Torgersen    MALE            42.8           18.5   

   flipper_length_mm  new_bill_depth_mm  
0                  0         140.000000  
1                  0         145.000000  
2                  0         142.666667  


In [21]:
print(penguin_df[penguin_df['sex'] == 'MALE'].head(3))    # sex가 MALE인 데이터만 추출 (논리형 인덱싱 표현)

     species     island   sex  bill_length_mm  bill_depth_mm  \
2     Adelie  Torgersen  MALE            42.8           18.5   
3  Chinstrap      Dream  MALE            53.5           19.9   
4     Gentoo     Biscoe  MALE            50.2           14.3   

   flipper_length_mm  new_bill_depth_mm  
2                  0         142.666667  
3                  0         178.333333  
4                  0         167.333333  


In [22]:
# 여러 개의 복합 조건을 결합하여 데이터 추출
print(penguin_df[(penguin_df['new_bill_depth_mm'] > 142) & 
                 (penguin_df['sex'] == 'FEMALE') 
                ].head(3))

   species  island     sex  bill_length_mm  bill_depth_mm  flipper_length_mm  \
1   Gentoo  Biscoe  FEMALE            43.5           15.2                  0   
8   Gentoo  Biscoe  FEMALE            46.5           13.5                  0   
13  Gentoo  Biscoe  FEMALE            43.4           14.4                  0   

    new_bill_depth_mm  
1          145.000000  
8          155.000000  
13         144.666667  


In [23]:
# 개별 조건을 변수에 할당하고, 이들 변수를 결합해서 논리형 인덱싱 수행
con1 = penguin_df['new_bill_depth_mm'] > 142
con2 = penguin_df['sex'] == 'FEMALE'

print(penguin_df[con1 & con2].head(3))

   species  island     sex  bill_length_mm  bill_depth_mm  flipper_length_mm  \
1   Gentoo  Biscoe  FEMALE            43.5           15.2                  0   
8   Gentoo  Biscoe  FEMALE            46.5           13.5                  0   
13  Gentoo  Biscoe  FEMALE            43.4           14.4                  0   

    new_bill_depth_mm  
1          145.000000  
8          155.000000  
13         144.666667  


### <a id='toc1_6_1_'></a>[`iloc` 함수](#toc0_)

- 위치 기반 인덱싱을 허용한다.
- `iloc(index_row, index_column)` 또는 `iloc(start_index:end_index-1)`와 같이 사용한다.

In [24]:
print(penguin_df.iloc[0, 1])    # 1행 2열 데이터 출력
print(penguin_df.iloc[0:2])    # 1행, 2행 데이터 출력

Torgersen
  species     island     sex  bill_length_mm  bill_depth_mm  \
0  Adelie  Torgersen     NaN            42.0           20.2   
1  Gentoo     Biscoe  FEMALE            43.5           15.2   

   flipper_length_mm  new_bill_depth_mm  
0                  0              140.0  
1                  0              145.0  


### <a id='toc1_6_2_'></a>[`loc` 함수](#toc0_)

- 명칭 기반으로 데이터를 추출한다.
- `loc(index, column_name)`또는 `loc(start_index:end_index-1, column_name)`와 같이 사용한다.

In [25]:
print(penguin_df.loc[0, 'new_bill_depth_mm'])    # 1행의 new_bill_depth_mm 값 출력
print(penguin_df.loc[0:4, 'new_bill_depth_mm'])    # 1행부터 5행까지(복수행)의 new_bill_depth_mm 값 출력

140.0
0    140.000000
1    145.000000
2    142.666667
3    178.333333
4    167.333333
Name: new_bill_depth_mm, dtype: float64


In [26]:
print(penguin_df.loc[penguin_df['sex'] == 'FEMALE',     # 논리형 인덱싱을 활용하여 조건부 데이터 출력
                     ['sex', 'new_bill_depth_mm', 'bill_depth_mm']].head(3))

      sex  new_bill_depth_mm  bill_depth_mm
1  FEMALE         145.000000           15.2
5  FEMALE         121.666667           18.0
8  FEMALE         155.000000           13.5


## <a id='toc1_7_'></a>[(7) 데이터프레임 데이터 정렬과 집계](#toc0_)

- `sort_values(by=column_name, ascending=True, inplace=False)`
    - `by`에 특정 컬럼을 입력하면 해당 컬럼으로 정렬을 수행한다.
    - `ascending=True`로 설정하면 오름차순으로 정렬한다. (기본값)
    - `inplace=False`로 설정하면 원 데이터프레임은 그대로 유지하며, 정렬된 데이터프레임을 함수의 결과로 반영한다. (기본값)

In [27]:
penguin_sorted = penguin_df.sort_values(by=['new_bill_depth_mm'])    # new_bill_depth_mm 컬럼 기준으로 오름차순 정렬

print(penguin_sorted)

       species     island     sex  bill_length_mm  bill_depth_mm  \
168     Adelie      Dream  FEMALE            32.1           15.5   
113     Adelie      Dream  FEMALE            33.1           16.1   
9       Adelie  Torgersen  FEMALE            33.5           19.0   
150     Adelie  Torgersen  FEMALE            34.4           18.4   
237     Adelie  Torgersen  FEMALE            34.6           17.2   
..         ...        ...     ...             ...            ...   
213     Gentoo     Biscoe    MALE            54.3           15.7   
90      Gentoo     Biscoe    MALE            55.1           16.0   
123  Chinstrap      Dream  FEMALE            58.0           17.8   
43      Gentoo     Biscoe     NaN             NaN            NaN   
229     Adelie  Torgersen     NaN             NaN            NaN   

     flipper_length_mm  new_bill_depth_mm  
168                  0         107.000000  
113                  0         110.333333  
9                    0         111.666667  
150    

In [28]:
penguin_sorted = penguin_df.sort_values(by=['new_bill_depth_mm', 'bill_depth_mm', 'sex'])    # 여러 개의 컬럼으로 정렬

print(penguin_sorted)

       species     island     sex  bill_length_mm  bill_depth_mm  \
168     Adelie      Dream  FEMALE            32.1           15.5   
113     Adelie      Dream  FEMALE            33.1           16.1   
9       Adelie  Torgersen  FEMALE            33.5           19.0   
150     Adelie  Torgersen  FEMALE            34.4           18.4   
237     Adelie  Torgersen  FEMALE            34.6           17.2   
..         ...        ...     ...             ...            ...   
213     Gentoo     Biscoe    MALE            54.3           15.7   
90      Gentoo     Biscoe    MALE            55.1           16.0   
123  Chinstrap      Dream  FEMALE            58.0           17.8   
43      Gentoo     Biscoe     NaN             NaN            NaN   
229     Adelie  Torgersen     NaN             NaN            NaN   

     flipper_length_mm  new_bill_depth_mm  
168                  0         107.000000  
113                  0         110.333333  
9                    0         111.666667  
150    

- 데이터프레임에서 집계 함수(`min`, `max`, `sum`, `count`)를 호출할 경우 <ins>모든 컬럼</ins>에 해당 집계 함수를 적용한다.

In [29]:
print(penguin_df.count())

species              240
island               240
sex                  232
bill_length_mm       238
bill_depth_mm        238
flipper_length_mm    240
new_bill_depth_mm    238
dtype: int64


- 특정 컬럼에만 집계 함수를 적용하기 위해서는 대상 컬럼들만 추출해서 집계 함수를 적용하면 된다.

In [30]:
print(penguin_df[['new_bill_depth_mm', 'bill_depth_mm']].mean())

new_bill_depth_mm    146.495798
bill_depth_mm         17.205462
dtype: float64


- 데이터프레임의 `groupby` 함수는 SQL의 `GROUP BY` 키워드와 유사하면서도 다른 면이 있기 때문에 주의가 필요하다.
    - 데이터프레임의 `groupby` 함수 사용 시, 입력 매개변수에 컬럼명을 입력하면 대상 컬럼으로 `groupby` 된다.
    - 또한, `groupby` <ins>입력 매개변수의 컬럼을 제외</ins>한 모든 컬럼에 해당 집계 함수를 적용한다.

In [31]:
penguin_groupby = penguin_df.groupby(['sex']).count()    # sex 컬럼을 제외한 모든 컬럼에 해당 집계 함수(count)를 적용한다.

print(penguin_groupby.head(3))

        species  island  bill_length_mm  bill_depth_mm  flipper_length_mm  \
sex                                                                         
FEMALE      111     111             111            111                111   
MALE        121     121             121            121                121   

        new_bill_depth_mm  
sex                        
FEMALE                111  
MALE                  121  


- 데이터프레임의 `groupby`에 특정 컬럼만 집계 함수를 적용하고자 한다면, `groupby`로 반환된 데이터프레임 객체에 특정 컬럼을 필터링한 뒤 집계 함수를 적용한다.

In [32]:
penguin_groupby = penguin_df.groupby('sex')[['bill_length_mm', 'bill_depth_mm', 'new_bill_depth_mm']].mean()     # bill_length_mm, bill_depth_mm, new_bill_depth_mm 컬럼에만 집계 함수(mean) 적용

print(penguin_groupby)

        bill_length_mm  bill_depth_mm  new_bill_depth_mm
sex                                                     
FEMALE       41.999099      16.478378         139.996997
MALE         45.818182      17.912397         152.727273


- `groupby`를 통해 여러 개의 집계 함수를 호출하고자 한다면 `agg` 내에 집계 함수를 인자로 입력해서 사용할 수도 있다.

In [33]:
penguin_groupby = penguin_df.groupby('sex')['new_bill_depth_mm'].agg([min, max, sum])     #  sex 컬럼을 그룹으로 한 new_bill_depth_mm 컬럼의 데이터에 여러 개의 집계 함수(min, max, sum) 적용

print(penguin_groupby)

               min         max           sum
sex                                         
FEMALE  107.000000  193.333333  15539.666667
MALE    115.333333  183.666667  18480.000000


  penguin_groupby = penguin_df.groupby('sex')['new_bill_depth_mm'].agg([min, max, sum])     #  sex 컬럼을 그룹으로 한 new_bill_depth_mm 컬럼의 데이터에 여러 개의 집계 함수(min, max, sum) 적용
  penguin_groupby = penguin_df.groupby('sex')['new_bill_depth_mm'].agg([min, max, sum])     #  sex 컬럼을 그룹으로 한 new_bill_depth_mm 컬럼의 데이터에 여러 개의 집계 함수(min, max, sum) 적용
  penguin_groupby = penguin_df.groupby('sex')['new_bill_depth_mm'].agg([min, max, sum])     #  sex 컬럼을 그룹으로 한 new_bill_depth_mm 컬럼의 데이터에 여러 개의 집계 함수(min, max, sum) 적용


## <a id='toc1_8_'></a>[(8) 데이터프레임 결측치 처리하기](#toc0_)

- 결측치란 컬럼에 값이 없는 경우, 즉 `Null`인 경우를 의미한다.
- 기본적으로 머신러닝 알고리즘은 결측치를 처리하지 않으면 작동하지 않으므로 이 값을 <ins>반드시</ins> 다른 값으로 대체해야 한다.
- `isna` 함수를 이용하여 <ins>결측치 여부를 확인</ins>할 수 있다.
- `fillna` 함수를 이용하여 <ins>결측치를 다른 값으로 대체</ins>할 수 있다.

In [34]:
import numpy as np

penguin_df['bill_depth_mm_na'] = np.nan    # bill_depth_mm_na 컬럼을 생성하고 값을 NaN으로 채우기

print(penguin_df.isna().head(3))

   species  island    sex  bill_length_mm  bill_depth_mm  flipper_length_mm  \
0    False   False   True           False          False              False   
1    False   False  False           False          False              False   
2    False   False  False           False          False              False   

   new_bill_depth_mm  bill_depth_mm_na  
0              False              True  
1              False              True  
2              False              True  


- 결측치 데이터의 개수는 `isna` 함수 결과에 `sum` 함수를 추가해 구할 수 있다.
    - 결측치 `True`는 `1`로, `False`는 `0`으로 변환되므로 결측치의 개수를 구할 수 있다.

In [35]:
print(penguin_df.isna().sum())    # 결측치 데이터의 개수 출력하기

species                0
island                 0
sex                    8
bill_length_mm         2
bill_depth_mm          2
flipper_length_mm      0
new_bill_depth_mm      2
bill_depth_mm_na     240
dtype: int64


- `fillna` 함수를 이용하면 결측치를 편리하게 다른 값으로 대체할 수 있다.

In [36]:
penguin_df['bill_depth_mm_na'] = penguin_df['bill_depth_mm_na'].fillna(penguin_df['new_bill_depth_mm'].mean())    # bill_depth_mm_na 컬럼의 값들(결측치)을 new_bill_depth_mm 컬럼의 평균값으로 대체

print(penguin_df.head(3))

  species     island     sex  bill_length_mm  bill_depth_mm  \
0  Adelie  Torgersen     NaN            42.0           20.2   
1  Gentoo     Biscoe  FEMALE            43.5           15.2   
2  Adelie  Torgersen    MALE            42.8           18.5   

   flipper_length_mm  new_bill_depth_mm  bill_depth_mm_na  
0                  0         140.000000        146.495798  
1                  0         145.000000        146.495798  
2                  0         142.666667        146.495798  
