# Pandas를 활용한 데이터 전처리

## 1-1. 판다스 설치 및 import

In [None]:
# Pandas 설치 및 import하기
!pip install pandas
import pandas as pd

## 2-2. 판다스 데이터 구조 소개

판다스 패키지는 시리즈 (Series) 클래스와 데이터프레임 (DataFrame) 클래스를 제공합니다.<br>
먼저 예시 데이터프레임을 생성하겠습니다.

In [73]:
# 예시 데이터프레임 생성하기
df_census = pd.DataFrame([['Adams', 20, 'Marketing Manager'],
                          ['Baker', 35, 'Sales Manager'],
                          ['Clark', 30, 'Software Engineer']],
                          columns=['Name', 'Age', 'Job'])
print(df_census)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [74]:
# 데이터프레임 타입 체크하기 (P)
print(type(df_census)) # DataFrame

# 데이터프레임 내 Job 열 타입 체크하기 (P)
print(type(df_census.Job)) # Series

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


## 2-3. 시리즈 클래스
시리즈는 1차원 데이터의 시퀀스를 저장하는 자료구조입니다.<br>
시리즈는 아래와 같이 파이썬 list를 사용하여 생성할 수 있습니다.

In [75]:
# 예시 리스트 생성하기
list_1 = ['Adams', 'Baker', 'Clark']
list_2 = [20, 35, 30]
list_3 = ['Marketing Manager', 'Sales Manager', 'Software Engineer']

In [76]:
# 예시 리스트로부터 시리즈 생성하기 (P)
series_1 = pd.Series(list_1) # 또는 pd.core.series.Series(list_1)
series_2 = pd.Series(list_2)
series_3 = pd.Series(list_3)
print(series_1)

0    Adams
1    Baker
2    Clark
dtype: object


In [77]:
# 시리즈의 값 type을 강제로 지정하기 (P)
print(pd.Series(list_2,
                dtype='float'))

0    20.0
1    35.0
2    30.0
dtype: float64


In [78]:
# 시리즈에 인덱스 부여하기 (P)
series_1_with_index = pd.Series(list_1,
                                index=["First", "Second", "Third"])
print(series_1_with_index)

# 인덱스에 접근하기 (P)
print(series_1_with_index.index)

# 데이터에 접근하기 (P)
print(series_1_with_index.values)

First     Adams
Second    Baker
Third     Clark
dtype: object
Index(['First', 'Second', 'Third'], dtype='object')
['Adams' 'Baker' 'Clark']


시리즈는 파이썬 리스트에 적용되는 인덱싱이 가능합니다.

In [79]:
# 시리즈에 인덱싱하기 (P)
print(series_1_with_index[2]) # 기본 인덱싱
print(series_1_with_index[series_1_with_index == 'Baker']) # 조건 인덱싱
print(series_1_with_index['First':'Second']) # 범위 인덱싱

# 시리즈에 연산하기 (P)
print(series_2 / 10) # 브로드캐스팅 적용; NumPy 패키지 학습 때 상세히 다룰 예정

Clark
Second    Baker
dtype: object
First     Adams
Second    Baker
dtype: object
0    2.0
1    3.5
2    3.0
dtype: float64


## 2-4. 데이터프레임 클래스

데이터프레임은 2차원 데이터를 저장하는 자료구조입니다.

2차원 데이터는 데이터를 표 형태로 표현하는 관계형 데이터 모델의 데이터 양식입니다.<br>
이는 우리에게 친숙한 엑셀 스프레드시트가 해당 형식을 띄고 있는 데이터 양식이며, 제조 현장 데이터 취합에 주로 사용되는 RDBMS (relational database management system)의 자료 형식이기도 합니다.

데이터프레임을 생성하는 방법 중 하나는 리스트를 input으로 직접 넣는 방식입니다.

In [80]:
# 예시 리스트 생성하기
list_1 = [['One', 2, 'Three'],
          [4, 'Five', 6],
          ['Seven', 8, 'Nine']]

# 리스트로부터 데이터프레임 생성하기 (P)
df_list = pd.DataFrame.from_records(list_1) #pd.DataFrame(list_1)와 동일함
print(df_list)

       0     1      2
0    One     2  Three
1      4  Five      6
2  Seven     8   Nine


In [81]:
# 행/열 이름을 지정하여 리스트로부터 데이터프레임 생성하기 (P)
df_list = pd.DataFrame.from_records(list_1,
                                    index=['R1', 'R2', 'R3'],
                                    columns=['C1', 'C2', 'C3'])
print(df_list)

       C1    C2     C3
R1    One     2  Three
R2      4  Five      6
R3  Seven     8   Nine


데이터프레임을 생성하는 다른 방법은 시리즈를 활용하는 방식입니다.

In [82]:
# 예시 시리즈 생성하기
series_1 = pd.Series(['One', 2, 'Three'])
series_2 = pd.Series([4, 'Five', 6])
series_3 = pd.Series(['Seven', 8, 'Nine'])

# 예시 시리즈로 데이터프레임 생성하기 (P)
df_series = pd.DataFrame.from_records([series_1, series_2, series_3])
print(df_series)

       0     1      2
0    One     2  Three
1      4  Five      6
2  Seven     8   Nine


데이터프레임을 생성하는 또 다른 방법은 딕셔너리를 활용하는 방식입니다.

In [83]:
# 예시 딕셔너리 생성하기
# 예시 1. key-value의 쌍으로 매 행을 딕셔너리로 작성하기
dict_1 = [{'Name': 'Adams', 'Age': 20, 'Job': 'Marketing Manager'},
          {'Name': 'Baker', 'Age': 35, 'Job': 'Sales Manager'},
          {'Name': 'Clark', 'Age': 30, 'Job': 'Software Engineer'}] # 열이름만 지정됨; pd.DataFrame(dict_1)와 동일함

# 예시 딕셔너리로 데이터프레임 생성하기 (P)
df_dict_1 = pd.DataFrame.from_dict(dict_1) # 열이름만 지정됨; pd.DataFrame(dict_1)와 동일함
print(df_dict_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [84]:
# 예시 딕셔너리 생성하기
# 예시 2. key-value 쌍에서 value 위치에 리스트를 넣기
dict_2 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}

# 예시 딕셔너리로 데이터프레임 생성하기 (P)
df_dict_2 = pd.DataFrame.from_dict(dict_2) # 기존 key가 열이름으로 설정; 행이름은 설정 불가
print(df_dict_2)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [85]:
# 예시 딕셔너리 생성하기
# 예시 3. 위 예시 2번처럼 생성하되, 기입하는 key-[values] 형태의 데이터를 각 행으로 인식하도록 생성하기 
dict_3 = {'R1': ['Adams', 20, 'Marketing Manager'],
          'R2': ['Baker', 35, 'Sales Manager'],
          'R3': ['Clark', 30, 'Software Engineer']}

# 예시 딕셔너리로 데이터프레임 생성하기 (P)
df_dict_3 = pd.DataFrame.from_dict(dict_3,
                                   orient='index', # 데이터를 행방향으로 인식하도록 설정; 따라서 key-[values] 형태의 데이터에서 key가 행이름으로 자동 설정됨
                                   columns=['Name', 'Age', 'Job']) # 열이름도 추가로 설정할 수 있음
print(df_dict_3)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R2  Baker   35      Sales Manager
R3  Clark   30  Software Engineer


데이터프레임에서는 열 값의 type을 강제로 지정할 수 있습니다.

In [86]:
# 데이터프레임의 값 type을 강제로 지정하기 (P)
df_dict_4 = pd.DataFrame.from_dict(dict_2,
                                   dtype='object')
print(df_dict_4)
print(df_dict_4.Age) # 기존 int64 값이 object 형태로 변경된 것을 확인

    Name Age                Job
0  Adams  20  Marketing Manager
1  Baker  35      Sales Manager
2  Clark  30  Software Engineer
0    20
1    35
2    30
Name: Age, dtype: object


**심화**<br>
딕셔너리로 데이터프레임을 생성할 때 주의해야 할 점은, Python 3.6 이하 버젼에서 작성한 딕셔너리에는 순서가 없다는 점입니다.<br>
이러한 이유로 간혹 딕셔너리를 작성할 때에는 key의 순서가 바뀌어 생성되는 경우가 있습니다.

따라서 Python 3.6 이하 버젼에서 key: value 꼴의 딕셔너리를 사전에 정의한 순서대로 활용하고 싶을 경우, collections 모듈의 OrderedDict 클래스를 활용합니다.<br>
Python 3.7 이상 버젼을 쓰신다면 key를 기입한 순서가 자동으로 보존되기 때문에 OrderedDict 클래스를 활용하지 않고 그대로 쓰셔도 문제 없습니다.

In [87]:
# OrderedDict를 활용하여 딕셔너리의 순서까지 유지하여 데이터프레임을 생성하기
from collections import OrderedDict
ordereddict_1 = OrderedDict(
    [
        ('C3', ['One', 4, 'Seven']),
        ('C2', [2, 'Five', 8]),
        ('C1', ['Three', 6, 'Nine'])
    ]
    )

# 예시 딕셔너리로 데이터프레임 생성하기 (P)
df_dict_5 = pd.DataFrame.from_dict(ordereddict_1,
                                   dtype='object')
print(df_dict_5)

      C3    C2     C1
0    One     2  Three
1      4  Five      6
2  Seven     8   Nine


---
# 3. 판다스 기본 문법 및 자료 입출력

## 3-1. 데이터프레임 저장하기 / 읽어오기

아래는 생성한 예시 데이터프레임을 저장하고, 저장된 해당 데이터프레임을 읽어오는 방법입니다.

In [88]:
# 데이터프레임 저장하기
# 참고) csv파일을 다른 프로그램에서 열고 있을 경우 .to_csv()로 저장되지 않음
dict_1 = [{'Name': 'Adams', 'Age': 20, 'Job': 'Marketing Manager'},
          {'Name': 'Baker', 'Age': 35, 'Job': 'Sales Manager'},
          {'Name': 'Clark', 'Age': 30, 'Job': 'Software Engineer'}]
df_dict_1 = pd.DataFrame.from_dict(dict_1)
df_dict_1.to_csv('df_census.csv',
                 index=False,
                 header=True) # index와 header를 True / False로 지정하는 것의 차이

# 데이터프레임 읽어오기 (P)
df_census = pd.read_csv('df_census.csv')
print(df_census)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


데이터프레임을 저장할 때 결측치가 있다면, 해당 결측치를 어느 한 대체값 (`fill_value`)로 대체하여 저장할 수 있습니다.

In [89]:
# 데이터프레임 저장할 때 NaN 값을 fill_value로 대체하기
dict_2 = [{'Name': 'Adams', 'Age': 20, 'Job': 'Marketing Manager'},
          {'Name': 'Baker', 'Age': 35, 'Job': 'Sales Manager'},
          {'Name': 'Clark', 'Age': 30, 'Job': None}] # 빈칸을 의도적으로 만들어놓음
df_dict_2 = pd.DataFrame.from_dict(dict_2)
df_dict_2.to_csv('df_census_with_nan.csv',
                 na_rep='fill_value',
                 index=False,
                 header=True) # index와 header를 True / False로 지정하는 것의 차이

# 데이터프레임 읽어오기 (P)
df_census = pd.read_csv('df_census_with_nan.csv')
print(df_census)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30         fill_value


## 3-2. 인터넷에서 오픈소스 CSV 데이터 읽어오기

이번에는 인터넷에서 open-source 데이터를 읽어오는 방법입니다.
예시로 UCI ML repository의 'winequality-red.csv' 파일을 읽어오겠습니다.

**[참고]** 
아래 3-2장과 3-3장은 보안 상황에 따라 외부 인터넷 링크를 통한 파일 다운로드가 정상 작동하지 않을 수 있습니다.

외부 인터넷 링크를 통한 코드가 정상 작동하지 않을 경우,
1. 아래 주석으로 적혀있는 CSV파일주소를 웹사이트에 복사/붙여넣기 하신 뒤 다운로드된 파일을 본 노트북(.ipynb) 파일이 있는 로컬 폴더로 이동시켜주시고,
2. '본 코드'를 주석처리하신 뒤,
3. 아래 있는 '대체 코드'를 주석처리 해제하여 실행해주시기 바랍니다. 

In [90]:
# 예시 데이터프레임 읽어오기: Vinho Verde 레드와인 품질 데이터 읽어오기
'''
CSV파일주소: 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'
'''

# # 본 코드
# wine_data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
#                         sep=';')
# print(wine_data)

# 대체 코드 (전제조건: 본 노트북이 저장된 로컬 폴더 내에 해당 CSV 데이터가 저장되어있어야 함)
wine_data = pd.read_csv('winequality-red.csv',
                        sep=';')
print(wine_data)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
4               7.4             0.700         0.00             1.9      0.076   
...             ...               ...          ...             ...        ...   
1594            6.2             0.600         0.08             2.0      0.090   
1595            5.9             0.550         0.10             2.2      0.062   
1596            6.3             0.510         0.13             2.3      0.076   
1597            5.9             0.645         0.12             2.0      0.075   
1598            6.0             0.310         0.47             3.6      0.067   

      free sulfur dioxide  

판다스에서는 데이터프레임의 속성 (attribute)이나 내장 메서드를 활용하여 주어진 데이터프레임의 다양한 정보들을 확인할 수 있습니다.<br>

먼저 예시 데이터프레임의 속성을 확인해보겠습니다.<br>
데이터프레임에서 확인할 수 있는 속성은 다음과 같습니다.
* index
* columns
* dtypes
* values
* axes
* shape
* ndim
* size
* empty
* T

다음은 데이터프레임의 행/열 정보, 형태, 차원수, 길이를 확인하는 예시입니다.

In [91]:
# 데이터프레임 행 정보 확인하기 (P)
print(wine_data.index, '\n')

# 데이터프레임 열 정보 확인하기 (P)
print(wine_data.columns, '\n')

# 데이터프레임 형태, 차원수, 길이 확인하기 (P)
print(wine_data.shape)
print(wine_data.ndim)
print(wine_data.size)

RangeIndex(start=0, stop=1599, step=1) 

Index(['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality'],
      dtype='object') 

(1599, 12)
2
19188


다음은 데이터프레임 내장 메서드를 활용하는 예시입니다.<br>
우선 `describe()` 메서드를 활용해 기초통계량 표를 생성하겠습니다.

In [92]:
# 데이터프레임 기초통계량 확인하기 (P)
print(wine_data.describe())

       fixed acidity  volatile acidity  citric acid  residual sugar  \
count    1599.000000       1599.000000  1599.000000     1599.000000   
mean        8.319637          0.527821     0.270976        2.538806   
std         1.741096          0.179060     0.194801        1.409928   
min         4.600000          0.120000     0.000000        0.900000   
25%         7.100000          0.390000     0.090000        1.900000   
50%         7.900000          0.520000     0.260000        2.200000   
75%         9.200000          0.640000     0.420000        2.600000   
max        15.900000          1.580000     1.000000       15.500000   

         chlorides  free sulfur dioxide  total sulfur dioxide      density  \
count  1599.000000          1599.000000           1599.000000  1599.000000   
mean      0.087467            15.874922             46.467792     0.996747   
std       0.047065            10.460157             32.895324     0.001887   
min       0.012000             1.000000         

`isnull()` 메서드를 사용하면 데이터프레임 내 각 원소를 결측여부 값 (불형)으로 바꾸어 같은 형태의 데이터프레임으로 반환합니다.<br>
이를 활용하면 해당 데이터프레임의 원소별 결측여부를 확인할 수 있습니다.

In [93]:
# 데이터프레임 원소별 결측여부 확인하기 (P)
print(wine_data.isnull())

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0             False             False        False           False      False   
1             False             False        False           False      False   
2             False             False        False           False      False   
3             False             False        False           False      False   
4             False             False        False           False      False   
...             ...               ...          ...             ...        ...   
1594          False             False        False           False      False   
1595          False             False        False           False      False   
1596          False             False        False           False      False   
1597          False             False        False           False      False   
1598          False             False        False           False      False   

      free sulfur dioxide  

그리고 해당 원소별 결측여부 데이터프레임에 내장 메서드인 `sum()`을 적용하면 행/열별 불자료형의 합을 얻을 수 있습니다.<br>
이를 활용하면 기존 데이터프레임 (e.g. `wine_data`)의 각 행/열별 결측여부 또한 확인할 수 있습니다.

In [94]:
# 데이터프레임 열별 결측여부 확인하기 (P)
print(wine_data.isnull().sum(axis=0)) # 행방향 (axis=0)으로 더하면 각 열별 결측여부를 알 수 있음

fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64


In [95]:
# 데이터프레임 행별 결측여부 확인하기 (P)
print(wine_data.isnull().sum(axis=1)) # 열방향 (axis=1)으로 더하면 각 행별 결측여부를 알 수 있음

0       0
1       0
2       0
3       0
4       0
       ..
1594    0
1595    0
1596    0
1597    0
1598    0
Length: 1599, dtype: int64


## 3-3. 인터넷에서 오픈소스 데이터베이스 데이터 읽어오기
판다스를 활용하면 오픈소스 데이터베이스에서 데이터를 읽어올 수도 있습니다.<br>
다만, 이를 위해서는 추가 라이브러리가 필요하니, 아래 안내에 따라 설치해주시면 됩니다.

**[참고]** 실습장에서는 일부 오픈소스 데이터베이스에서 읽어오는 코드가 정상 작동하지 않을 수 있습니다.<br>
그렇기에 본 3-3장은 아래 작성된 코드를 참고용으로 봐주시면 되겠습니다.<br>
이에 따라, **3-3장은 시험문제 출제 범위에서 제외**합니다.

In [None]:
# 라이브러리 설치하기
!pip install pandas-datareader
!pip install yfinance

# 관련 라이브러리 불러오기
from pandas_datareader import data as pdr # 참고) https://pandas-datareader.readthedocs.io/en/latest/remote_data.html
import yfinance as yf
import datetime

In [97]:
# 데이터베이스에서 데이터 읽어오기 예시 1: Federal Reserve Economic Data (FRED) 데이터베이스에서 미국 경제지표 시계열 데이터 읽어오기

# 시계열 데이터의 처음과 끝 날짜를 지정하기
dt_start = datetime.datetime(2022, 1, 1) # "2022, 1, 1" 이라고 넣어줘도 됨
dt_end = datetime.datetime(2023, 3, 10) # "2023, 3, 10" 이라고 넣어줘도 됨

# FRED 데이터베이스에서 미국 국가총생산 데이터를 가져오기
df_gdp = pdr.get_data_fred(["GDP"],
                           dt_start,
                           dt_end)

print(df_gdp.tail())

                  GDP
DATE                 
2022-01-01  24740.480
2022-04-01  25248.476
2022-07-01  25723.941
2022-10-01  26137.992
2023-01-01  26529.774


In [98]:
# FRED 데이터베이스에서 미국 소비자 가격 지수(CPIAUCSL), 식료품 및 연료를 제외한 소비자 가격 지수(CPILFESL) 데이터를 가져오기
df_inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"],
                                 dt_start,
                                 dt_end)
print(df_inflation.tail())

            CPIAUCSL  CPILFESL
DATE                          
2022-11-01   298.598   300.261
2022-12-01   298.990   301.460
2023-01-01   300.536   302.702
2023-02-01   301.648   304.070
2023-03-01   301.808   305.240


In [99]:
# 데이터베이스에서 데이터 읽어오기 예시 2: Yahoo Finance 데이터베이스에서 2023년 1월 삼성전자 주가 데이터 읽어오기

# 시계열 데이터의 처음과 끝 날짜를 지정하기
dt_start = datetime.datetime(2023, 1, 1) # "2023, 1, 1" 이라고 넣어줘도 됨
dt_end = datetime.datetime(2023, 1, 31) # "2023, 1, 31" 이라고 넣어줘도 됨

# 삼성전자 KS관련 주가 자료를 Yahoo Finance에서 읽어오기
yf.pdr_override() # Yahoo 데이터 제공 방식에 따라 pandas_datareader만으로는 수집이 불가하여 yfinance 라이브러리를 통해 데이터를 크롤링하여 수집
y_symbols = ['005930.KS'] # 삼성전자 코드
df_stock = pdr.get_data_yahoo(y_symbols,
                              start=dt_start,
                              end=dt_end)
print(df_stock)

[*********************100%***********************]  1 of 1 completed
               Open     High      Low    Close     Adj Close    Volume
Date                                                                  
2023-01-02  55500.0  56100.0  55200.0  55500.0  55180.453125  10031448
2023-01-03  55400.0  56000.0  54500.0  55400.0  55081.031250  13547030
2023-01-04  55700.0  58000.0  55600.0  57800.0  57467.210938  20188071
2023-01-05  58200.0  58800.0  57600.0  58200.0  57864.910156  15682826
2023-01-06  58300.0  59400.0  57900.0  59000.0  58660.304688  17334989
2023-01-09  59700.0  60700.0  59600.0  60700.0  60350.515625  18640107
2023-01-10  60200.0  61100.0  59900.0  60400.0  60052.242188  14859797
2023-01-11  61000.0  61200.0  60300.0  60500.0  60151.667969  12310751
2023-01-12  61100.0  61200.0  59900.0  60500.0  60151.667969  16102561
2023-01-13  60500.0  61200.0  60400.0  60800.0  60449.941406  12510328
2023-01-16  61300.0  61600.0  60800.0  61100.0  60748.210938  10039972
2023-01-

---
# 4. Pandas를 활용한 데이터 전처리 (1) – 데이터 필터링하기

## 4-1. 인덱스로 행 필터하기

지금부터는 다양한 방식으로 생성하거나 읽어온 데이터프레임을 전처리하는 방법을 배우겠습니다.<br>
데이터 전처리 실습을 위해 간단한 예시 데이터프레임을 생성하겠습니다.<br>
해당 예시 인구조사 데이터프레임은 어느 한 집단에 소속된 사람들의 이름, 나이, 그리고 직업을 나열한 표 형식의 데이터입니다.

In [100]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


먼저 인덱스로 행 필터하는 방법을 배우겠습니다.<br>
파이썬 리스트를 인덱싱하는 방법과 동일하게, 데이터프레임에서는 행 인덱스를 사용하여 인덱싱 또는 슬라이싱할 수 있습니다.<br>
참고로 0부터 시작하는 인덱싱 (zero-based indexing)을 사용하는 파이썬에서 '1'행은 두번째 행, '2'행은 세번째 행을 의미합니다.

In [101]:
# 데이터프레임 인덱싱하기 (P)
print(df_1[1:3])

    Name  Age                Job
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


파이썬 리스트와는 다르게, 데이터프레임에서는 불연속적인 인덱싱을 하는 방법도 있는데요.<br>
`.loc[]`와 `.iloc[]`를 활용하면 원하는 임의의 행들을 인덱싱할 수 있습니다.<br>
단, `.loc[]`와 `.iloc[]`를 쓰실 때에는 소괄호 ```()```가 아닌 대괄호 ```[]```를 쓰는 점을 반드시 기억하시기 바랍니다.

In [102]:
# .loc[]를 활용하여 0행, 2행을 인덱싱하기 (P)
print(df_1.loc[[0, 2]])

    Name  Age                Job
0  Adams   20  Marketing Manager
2  Clark   30  Software Engineer


In [103]:
# .iloc[]를 활용하여 0행, 2행을 인덱싱하기 (P)
print(df_1.iloc[[0, 2]])

    Name  Age                Job
0  Adams   20  Marketing Manager
2  Clark   30  Software Engineer


`.loc[]`와 `.iloc[]`, 두 방법의 차이는 무엇일까요?

바로 `.loc[]`은 인덱스의 레이블을 인자로 받는 반면 `.iloc[]`은 인덱스의 위치 정수를 인자로 받는다는 점입니다.

In [104]:
# 행 인덱스를 명시한 예시 데이터프레임 생성하기
dict_2 = {'R1': ['Adams', 20, 'Marketing Manager'],
          'R2': ['Baker', 35, 'Sales Manager'],
          'R3': ['Clark', 30, 'Software Engineer']}
df_2 = pd.DataFrame.from_dict(dict_2,
                              orient='index')
print(df_2)

        0   1                  2
R1  Adams  20  Marketing Manager
R2  Baker  35      Sales Manager
R3  Clark  30  Software Engineer


In [105]:
# .loc[]와 위치 정수 인자를 활용하여 인덱싱하기 (P)
#print(df_2.loc[[0, 2]]) # 레이블 (행이름 또는 index)로 인자를 지정하지 않을 경우 오류 발생

In [106]:
# .iloc[]와 위치 정수 인자를 활용하여 인덱싱하기 (P)
print(df_2.iloc[[0, 2]])

        0   1                  2
R1  Adams  20  Marketing Manager
R3  Clark  30  Software Engineer


## 4-2. 조건에 따라 행 필터하기
데이터프레임을 인덱싱하는 방법을 응용하면, 특정 열의 값에 따른 조건을 충족하는 행만 선택하여 추출할 수 있습니다.<br>
우선 예시 인구조사 데이터프레임을 생성하겠습니다.

In [107]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


아래는 조건문을 인덱싱 안의 구문으로 직접 전달하여 데이터프레임에서 해당 조건을 만족하는 행을 추출하는 예시입니다.

In [108]:
# 조건문을 전달하여 인덱싱하기 (P)
df_1_cond = df_1[df_1.Age > 25] # Age 열을 뽑고 싶을 때는 .Age를 활용
print(df_1_cond)

    Name  Age                Job
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


이러한 단일 조건문을 다중 조건문으로도 전달할 수 있습니다.

In [109]:
# 다중 조건문을 전달하여 인덱싱하기 (P)
df_1_multi_cond = df_1[(df_1.Age < 25) & (df_1.Name == 'Adams')]
print(df_1_multi_cond)

    Name  Age                Job
0  Adams   20  Marketing Manager


또한 데이터프레임 클래스에 내장된 `query()` 메서드를 활용하는 방법도 있습니다.<br>
다만 조건문을 직접 전달할 때와는 다르게 `query()` 메서드는 조건문 전체를 문자열로 변환하여 인자로 받는다는 특징이 있습니다.

In [110]:
# 쿼리 메서드를 활용하여 인덱싱하기 (P)
df_1_queried = df_1.query('Age > 25') # 다중조건을 원할 경우 'Age > 25 & Job.str.contains("Manager")'와 같이 '' 안에 다중 조건을 괄호 없이 전달; 열이름 (column)에 대해서만 작동
print(df_1_queried)

    Name  Age                Job
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


## 4-3. 인덱스로 열 필터하기

다음은 인덱스로 열 필터하는 방법을 배우겠습니다.<br>
위에서 배운 방법과 마찬가지로, 열 인덱스를 사용하여 인덱싱 또는 슬라이싱을 할 수 있습니다.<br>
우선 예시 인구조사 데이터프레임을 생성하겠습니다.

In [111]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


앞에서 보셨던 `.iloc[]`를 활용하면 1열부터 2열까지 열을 선택할 수 있습니다.<br>
참고로 0부터 시작하는 인덱싱 (zero-based indexing)을 사용하는 파이썬에서 '1'열은 두번째 열, '2'열은 세번째 열을 의미합니다.

In [112]:
# .iloc 메서드 활용하여 인덱싱하기 (P)
print(df_1.iloc[:, 1:3])

   Age                Job
0   20  Marketing Manager
1   35      Sales Manager
2   30  Software Engineer


`.iloc[]`는 연속적이지 않은 인덱스로도 행을 필터할 수 있었습니다.<br>
이는 열을 필터하는 데에도 마찬가지입니다.

In [113]:
# .iloc 메서드 활용하여 불연속 인덱싱하기 (P)
print(df_1.iloc[:, [0, 2]])

    Name                Job
0  Adams  Marketing Manager
1  Baker      Sales Manager
2  Clark  Software Engineer


## 4-4. 열 이름으로 열 필터하기

데이터에서 추출하고 싶은 열 이름을 알고 있다면 이를 필터링에 바로 활용하는 방법도 있습니다.

**[참고]** 
아래 코드 중 외부 인터넷 링크를 통한 코드가 정상 작동하지 않을 경우,
1. 아래 주석으로 적혀있는 CSV파일주소를 웹사이트에 복사/붙여넣기 하신 뒤 다운로드된 파일을 본 노트북(.ipynb) 파일이 있는 로컬 폴더로 이동시켜주시고,
2. '본 코드'를 주석처리하신 뒤,
3. 아래 있는 '대체 코드'를 주석처리 해제하여 실행해주시기 바랍니다. 

In [114]:
# 예시 데이터프레임 읽어오기: Vinho Verde 레드와인 품질 데이터 읽어오기
'''
CSV파일주소: 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'
'''

# # 본 코드
# wine_data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv',
#                         sep=';')
# print(wine_data)

# 대체 코드 (전제조건: 본 노트북이 저장된 로컬 폴더 내에 해당 CSV 데이터가 저장되어있어야 함)
wine_data = pd.read_csv('winequality-red.csv',
                        sep=';')
print(wine_data)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
4               7.4             0.700         0.00             1.9      0.076   
...             ...               ...          ...             ...        ...   
1594            6.2             0.600         0.08             2.0      0.090   
1595            5.9             0.550         0.10             2.2      0.062   
1596            6.3             0.510         0.13             2.3      0.076   
1597            5.9             0.645         0.12             2.0      0.075   
1598            6.0             0.310         0.47             3.6      0.067   

      free sulfur dioxide  

In [115]:
# 관심 열 추출하기: 와인에서 pH농도와 알코올 함량 보기
# 예시 1. 리스트 인덱싱을 활용하기 (P)
wine_data_filtered = wine_data[['pH', 'alcohol']]
print(wine_data_filtered)

        pH  alcohol
0     3.51      9.4
1     3.20      9.8
2     3.26      9.8
3     3.16      9.8
4     3.51      9.4
...    ...      ...
1594  3.45     10.5
1595  3.52     11.2
1596  3.42     11.0
1597  3.57     10.2
1598  3.39     11.0

[1599 rows x 2 columns]


In [116]:
# 예시 2. 데이터프레임의 filter 메서드를 활용하기 (P)
print(wine_data.filter(items=['pH', 'alcohol']))

        pH  alcohol
0     3.51      9.4
1     3.20      9.8
2     3.26      9.8
3     3.16      9.8
4     3.51      9.4
...    ...      ...
1594  3.45     10.5
1595  3.52     11.2
1596  3.42     11.0
1597  3.57     10.2
1598  3.39     11.0

[1599 rows x 2 columns]


참고로 `filter()` 메서드를 사용하더라도 원본 데이터프레임은 변하지 않습니다.

In [117]:
# filter 메서드 사용 후 원본 데이터 체크하기 (P)
print(wine_data)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
4               7.4             0.700         0.00             1.9      0.076   
...             ...               ...          ...             ...        ...   
1594            6.2             0.600         0.08             2.0      0.090   
1595            5.9             0.550         0.10             2.2      0.062   
1596            6.3             0.510         0.13             2.3      0.076   
1597            5.9             0.645         0.12             2.0      0.075   
1598            6.0             0.310         0.47             3.6      0.067   

      free sulfur dioxide  

## 4-5. 지정 문자열을 포함하는 행 / 열 필터하기

`filter()` 메서드에서 `like` 인자를 활용하면 원하는 문자열을 이름에 포함하는 행 또는 열을 보여줄 수 있습니다.

In [118]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [119]:
# 행이름 중 지정한 문자열을 가진 행 필터하기 (P)
print(df_1.filter(like='0',
                  axis=0))

    Name  Age                Job
0  Adams   20  Marketing Manager


In [120]:
# 열이름 중 지정한 문자열을 가진 열 필터하기 (P)
print(df_1.filter(like='J',
                  axis=1))

                 Job
0  Marketing Manager
1      Sales Manager
2  Software Engineer


**심화**<br>
`filter()` 메서드에는 정규 표현식을 활용한 필터도 가능합니다.

In [121]:
# 지정한 문자열로 시작하는 열 이름을 가진 열 필터하기 (P)
print(df_1.filter(regex='^N',
                  axis=1))

    Name
0  Adams
1  Baker
2  Clark


In [122]:
# 교수자용 참고자료) 파이썬 정규표현식 참고자료: https://wikidocs.net/4308

---
# 5. Pandas를 활용한 데이터 전처리 (2) – 데이터 삭제, 추가, 변경하기

## 5-1. 인덱스로 행 삭제하기

다음은 인덱스로 행을 삭제하는 방법을 배우겠습니다.<br>
제외하고 싶은 행의 인덱스를 `drop()` 메서드에 리스트 인자로 제공하여 행을 삭제할 수 있습니다.<br>
우선 예시 인구조사 데이터프레임을 생성하겠습니다.

In [123]:
# 행, 열 이름을 명시한 예시 데이터프레임 생성하기
dict_1 = {'R1': ['Adams', 20, 'Marketing Manager'],
          'R2': ['Baker', 35, 'Sales Manager'],
          'R3': ['Clark', 30, 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1,
                              orient='index',
                              columns=['Name', 'Age', 'Job'])
print(df_1)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R2  Baker   35      Sales Manager
R3  Clark   30  Software Engineer


In [124]:
# 제외하고 싶은 행 이름을 drop() 메서드의 인자로 제공하기 (P)
print(df_1.drop(['R2']))

     Name  Age                Job
R1  Adams   20  Marketing Manager
R3  Clark   30  Software Engineer


참고로 `drop()` 메서드를 활용하더라도 원본 데이터프레임은 변하지 않습니다.

In [125]:
# drop() 메서드 사용 후 원본 데이터 체크하기 (P)
print(df_1)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R2  Baker   35      Sales Manager
R3  Clark   30  Software Engineer


`drop()`은 기본적으로 원본 데이터프레임을 바꾸지 않기 때문에, 특정 행을 삭제한 데이터프레임을 저장하려면 새로운 객체에 저장하거나 기존 객체에 덮어쓰기하는 방법이 있습니다.<br>
반면에, `inplace` 인자는 행을 삭제한 결과가 곧바로 원본 데이터프레임에 반영 (덮어쓰기)됩니다.

In [126]:
# 행, 열 이름을 명시한 예시 데이터프레임 생성하기
dict_1 = {'R1': ['Adams', 20, 'Marketing Manager'],
          'R2': ['Baker', 35, 'Sales Manager'],
          'R3': ['Clark', 30, 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1,
                              orient='index',
                              columns=['Name', 'Age', 'Job'])
print(df_1)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R2  Baker   35      Sales Manager
R3  Clark   30  Software Engineer


In [127]:
# 제외하고 싶은 행 이름을 drop() 메서드의 인자로 제공하기 (P)
df_1.drop(['R2'], inplace=True)
print(df_1)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R3  Clark   30  Software Engineer


또한 `.iloc[]`을 활용해서 행을 필터할 때와 마찬가지로, 행 인덱스를 명시해서 행을 삭제하는 방법도 가능합니다.

In [128]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [129]:
# 데이터프레임의 행 인덱스를 명시하고 삭제하기 (P)
df_1_dropped = df_1.drop([0, 2]) # default: axis=0
print(df_1_dropped)

    Name  Age            Job
1  Baker   35  Sales Manager


## 5-2. 조건에 따라 행 삭제하기

필터와 마찬가지로 특정 열의 값에 따른 조건을 충족하는 행만 선택하여 추출할 수 있습니다.<br>
우선 예시 인구조사 데이터프레임을 생성하겠습니다.

In [130]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


특정 조건을 충족하는 행만 선택하여 추출하는 방법은 특정 조건을 충족하지 않는 행은 삭제하는 방법과 동일하다고 볼 수 있습니다.<br>
아래는 `df_1.Age` 열이 30이 아닌 행만 선택, 또는 `df_1.Age` 열이 30인 행은 삭제하는 예시입니다.

In [131]:
# 조건에 따라 행 삭제하기 (P)
print(df_1[df_1.Age != 30])

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager


## 5-3. 열 이름으로 열 삭제하기

특정 열을 삭제하고 싶을 때에는 `drop()` 메서드를 활용하면 됩니다.<br>
이때 `axis=1`을 인자로 명시해주어야 특정 열 이름에 해당하는 열이 삭제됩니다.

In [132]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [133]:
# 지정한 열 이름에 해당하는 데이터프레임의 열 삭제하기 (P)
df_1_dropped = df_1.drop('Age',
                         axis=1)
print(df_1_dropped)

    Name                Job
0  Adams  Marketing Manager
1  Baker      Sales Manager
2  Clark  Software Engineer


## 5-4. 행 / 열 추가 또는 변경하기

지금부터는 우리가 갖고 있는 데이터프레임에 새로운 행 또는 열을 추가하는 방법을 배우겠습니다.<br>
우선 예시 인구조사 데이터프레임을 생성하겠습니다.

In [134]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


새로운 행을 추가하려면 위에서 배운 `iloc[]`을 활용하면 간단히 추가할 수 있습니다.<br>
기존에 갖고 있는 데이터프레임의 마지막 인덱스에 +1한 위치를 `iloc[]`의 위치 정수로 제공하면 됩니다.<br>
(사실 `iloc[]`을 활용하면 임의의 인덱스에 해당 행을 추가할 수 있기 때문에, 아래와 같이 응용할 수 있는 것입니다.)

In [135]:
# 데이터프레임에 새로운 행 추가하기 (P)
df_1.loc[df_1.index[-1] + 1] = ['David', '40', 'Secretary']
print(df_1)

    Name Age                Job
0  Adams  20  Marketing Manager
1  Baker  35      Sales Manager
2  Clark  30  Software Engineer
3  David  40          Secretary


새로운 열을 추가하려면 데이터프레임에 존재하지 않는 새로운 이름을 인덱싱한 값에 기본값을 할당하거나 기존 행 길이에 맞는 시퀀스를 전달하여 추가할 수 있습니다.

In [136]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [137]:
# 데이터프레임에 새로운 열 추가하기 (P)
df_1['Nationality'] = 'Korean' # 기존 행 길이에 맞는 시퀀스를 전달하기
print(df_1)

    Name  Age                Job Nationality
0  Adams   20  Marketing Manager      Korean
1  Baker   35      Sales Manager      Korean
2  Clark   30  Software Engineer      Korean


In [138]:
# 데이터프레임에 새로운 열 추가하기 (P)
df_1['Salary'] = [1000, 2000, 3000] # 기존 행 길이에 맞는 시퀀스를 전달하기
print(df_1)

    Name  Age                Job Nationality  Salary
0  Adams   20  Marketing Manager      Korean    1000
1  Baker   35      Sales Manager      Korean    2000
2  Clark   30  Software Engineer      Korean    3000


또한 기존에 존재하는 데이터프레임 열에 대한 논리값이나 논리 연산 결과를 새로운 열로 생성할 수도 있습니다.

In [139]:
# 논리 연산을 활용하여 새로운 열 생성하기 (P)
df_1['Is_Engineer'] = (df_1['Age'] < 30) # Age 30 미만 여부
print(df_1)

    Name  Age                Job Nationality  Salary  Is_Engineer
0  Adams   20  Marketing Manager      Korean    1000         True
1  Baker   35      Sales Manager      Korean    2000        False
2  Clark   30  Software Engineer      Korean    3000        False


이번에는 어느 한 데이터프레임에 있는 기존의 두 열을 활용해 새롭게 값을 계산한 뒤 이를 새 열로 저장하는 예제입니다.<br>
우선 예시 인구조사 데이터프레임을 생성하겠습니다.<br>
이번 데이터프레임은 키와 몸무게 정보가 들어간 것이 특징입니다.

In [140]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Height(m)': [1.85, 1.75, 1.70],
          'Weight(kg)': [80, 55, 65],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Height(m)  Weight(kg)                Job
0  Adams       1.85          80  Marketing Manager
1  Baker       1.75          55      Sales Manager
2  Clark       1.70          65  Software Engineer


주어진 데이터프레임을 활용해 BMI를 계산해보도록 하겠습니다.<br>
BMI는 (몸무게(kg)) / (키(m)의 제곱) 의 식으로 계산할 수 있고, 이를 새로운 열에 저장해봅시다.

In [141]:
# Height와 Weight를 활용하여 BMI 계산하기 (BMI = W/(H^2)) (P)
df_1['BMI'] = df_1['Weight(kg)'] / df_1['Height(m)'] ** 2
print(df_1)

    Name  Height(m)  Weight(kg)                Job        BMI
0  Adams       1.85          80  Marketing Manager  23.374726
1  Baker       1.75          55      Sales Manager  17.959184
2  Clark       1.70          65  Software Engineer  22.491349


또한 for-loop을 활용한 조건문을 적용하여 새로운 열을 추가할 수도 있습니다.<br>
실습을 통해 BMI로 데이터프레임 내 사람들의 비만 여부를 판단해봅시다.

In [142]:
# 실습: BMI에 조건을 적용하여 구분하기 (P)
category = []

for row in df_1['BMI']:
    if row >= 25:
        category.append('Obesity')
    elif row >= 23:
        category.append('Overweight')
    elif row >= 18.5:
        category.append('Normal weight')
    else:
        category.append('Underweight')
        
df_1['BMI category'] = category
print(df_1)

    Name  Height(m)  Weight(kg)                Job        BMI   BMI category
0  Adams       1.85          80  Marketing Manager  23.374726     Overweight
1  Baker       1.75          55      Sales Manager  17.959184    Underweight
2  Clark       1.70          65  Software Engineer  22.491349  Normal weight


## 5-5. apply 메서드 활용하기

`apply()` 메서드를 사용하면 사용자 정의 함수를 활용해 데이터프레임의 열 값을 변경할 수 있습니다.<br>
우선 예시 인구조사 데이터프레임을 생성하겠습니다.

In [143]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [144]:
# 사용자 정의 함수 만들기
def is_manager(row):
    if "Manager" in row:
        return 'Manager'
    else:
        return 'Engineer'

In [145]:
# apply() 메서드를 활용하여 데이터프레임 열 값을 변경하기 (P)
df_1.Job = df_1.Job.apply(is_manager)
print(df_1)

    Name  Age       Job
0  Adams   20   Manager
1  Baker   35   Manager
2  Clark   30  Engineer


아래 예제를 통해 `apply()` 메서드와 지역번호 추출 사용자 정의함수를 이용해, 전화번호 데이터프레임 중 지역번호를 추출해봅시다.<br>
우선 예시 전화번호 데이터프레임을 생성하겠습니다.

In [146]:
# 예시 전화번호 데이터프레임 생성하기
df_phone_number = [{'전화번호': '031-123-4567'},
                   {'전화번호': '032-555-5555'},
                   {'전화번호': '033-999-9999'}]
df_1 = pd.DataFrame(df_phone_number,
                    columns=['전화번호'])
print(df_1)

           전화번호
0  031-123-4567
1  032-555-5555
2  033-999-9999


In [147]:
# 사용자 정의 함수: 지역번호 추출
def extract_local_number(row):
    return row.split('-')[0]

In [148]:
# apply() 메서드를 활용해 지역번호 추출하기 (P)
df_1['지역번호'] = df_1['전화번호'].apply(extract_local_number)
print(df_1)

           전화번호 지역번호
0  031-123-4567  031
1  032-555-5555  032
2  033-999-9999  033


`apply()` 메서드의 키워드 인자를 사용하면, 사용자 정의 함수에 파라미터를 전달할 수 있습니다.

In [149]:
# 지역번호를 안내하는 멘트 만들기
def generate_sentence(local_number, sentence_start='지역번호는 ', sentence_end='입니다'):
    return sentence_start + str(local_number) + sentence_end

In [150]:
# apply() 메서드를 활용하여 안내멘트 열 생성하기 (P)
df_1['안내멘트'] = df_1['지역번호'].apply(generate_sentence,
                                         sentence_end='이에요')
print(df_1)

           전화번호 지역번호          안내멘트
0  031-123-4567  031  지역번호는 031이에요
1  032-555-5555  032  지역번호는 032이에요
2  033-999-9999  033  지역번호는 033이에요


`apply()` 메서드의 `axis` 인자를 사용하면 `apply()`에 사용하는 함수가 적용될 방향 (행 또는 열)을 정할 수 있습니다.<br>
우선 모든 값이 수치형인 예시 데이터프레임을 생성하겠습니다.

In [151]:
# 예시 데이터프레임 생성하기
dict_1 = {'A': [1, 2, 3, 4, 5],
          'B': [3, 3, 3, 3, 3],
          'C': [5, 10, 15, 20, 25]}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

   A  B   C
0  1  3   5
1  2  3  10
2  3  3  15
3  4  3  20
4  5  3  25


In [152]:
# Python 기본 sum() 함수를 모든 열에 적용하기 (P)
print(df_1.apply(sum)) # default: axis = 0

A    15
B    15
C    75
dtype: int64


In [153]:
# Python 기본 sum() 함수를 모든 행에 적용하기 (P)
print(df_1.apply(sum,
                 axis=1))

0     9
1    15
2    21
3    27
4    33
dtype: int64


`apply()` 메서드에 `lambda` 표현식을 활용하여 인자를 전달할 수도 있습니다.

In [154]:
# lambda 표현식을 활용하여 간단한 함수 구현하기: 모든 값에 1 더하기 (P)
print(df_1.apply(lambda x: x + 1))

   A  B   C
0  2  4   6
1  3  4  11
2  4  4  16
3  5  4  21
4  6  4  26


기본 `lambda` 함수처럼 조건문을 활용하는 방식도 가능합니다.

In [155]:
# lambda 표현식을 활용하여 간단한 함수 구현하기: 열 이름이 'A' 또는 'B'인 조건을 만족할 때 해당 열의 모든 값을 제곱하기 (P)
print(df_1.apply(lambda x: x**2 if x.name in ['A', 'B'] else x))

    A  B   C
0   1  9   5
1   4  9  10
2   9  9  15
3  16  9  20
4  25  9  25


## 5-6. map 메서드 활용하기

`map()` 메서드를 활용하면 `apply()` 메서드와 동일한 방식으로 열 값을 추가하거나 변경할 수 있습니다.<br>
우선 예시 전화번호 데이터프레임을 생성하겠습니다.

In [156]:
# 예시 전화번호 데이터프레임 생성하기
df_phone_number = [{'전화번호': '031-123-4567'},
                   {'전화번호': '032-555-5555'},
                   {'전화번호': '033-999-9999'}]
df_1 = pd.DataFrame(df_phone_number,
                    columns=['전화번호'])
print(df_1)

           전화번호
0  031-123-4567
1  032-555-5555
2  033-999-9999


In [157]:
# 사용자 정의 함수: 지역번호 추출
def extract_local_number(row):
    return row.split('-')[0]

In [158]:
# map 메서드를 활용해 지역번호 추출하기 (P)
df_1['지역번호'] = df_1['전화번호'].map(extract_local_number)
print(df_1)

           전화번호 지역번호
0  031-123-4567  031
1  032-555-5555  032
2  033-999-9999  033


파라미터로 딕셔너리를 전달하면 컬럼값을 쉽게 원하는 값으로 변경 가능합니다.  
기존의 컬럼값은 딕셔너리의 key로 사용되고, 해당되는 value의 값으로 컬럼값이 변경됩니다.

In [159]:
# map 메서드를 활용해 지역번호 열의 값을 지역명으로 변경하기 (P)
df_1['지역번호'] = df_1['지역번호'].map({'031': '경기',
                                        '032': '인천',
                                        '033': '강원'})
print(df_1)

           전화번호 지역번호
0  031-123-4567   경기
1  032-555-5555   인천
2  033-999-9999   강원


## 5-7. applymap 메서드 활용하기
데이터프레임 전역에 동일한 함수를 적용하고 싶을 경우, 간단히 `applymap()` 메서드를 사용하면 데이터프레임의 모든 원소에 동일한 함수를 빠르게 적용할 수 있습니다.<br>
우선 모든 값이 수치형인 예시 데이터프레임을 생성하겠습니다.

In [160]:
# 예시 데이터프레임 생성하기
dict_1 = {'A': [1.1, 2.4, 2.8, 4.42, 5.1],
          'B': [3.0, 2.8, 3.1, 3.2, 2.6],
          'C': [5.1, 10.1, 15.2, 19.8, 24.8]}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

      A    B     C
0  1.10  3.0   5.1
1  2.40  2.8  10.1
2  2.80  3.1  15.2
3  4.42  3.2  19.8
4  5.10  2.6  24.8


In [161]:
# 데이터프레임 전역에 동일한 함수 적용하기 (P)
df_1 = df_1.applymap(round)
print(df_1)

   A  B   C
0  1  3   5
1  2  3  10
2  3  3  15
3  4  3  20
4  5  3  25


---
# 6. Pandas를 활용한 데이터 전처리 (3) – 데이터 병합 및 분할하기

## 6-1. concat 메서드 - 두개의 데이터프레임 합치기

다수의 데이터프레임을 다루다보면 데이터프레임을 하나로 합쳐야 하는 상황이 있습니다.

이때 판다스에서는 `append()` 그리고 `concat()` 라는 두 가지의 메서드를 쓸 수 있었습니다. (판다스 1.5.3 버젼까지)<br>
그러나, 최근 2.0.0 버젼을 기점으로 판다스에서는 시리즈나 데이터프레임에 `append()`하는 메서드를 deprecated화 (즉, 중요도가 떨어져 더 이상 사용하지 않고 제거)하였습니다.<br>
따라서 본 강의에서는 최신 판다스 버젼을 기준으로 `concat()` 메서드에 대해서만 안내하겠습니다.

`concat()`를 활용하면 행 또는 열 방향으로 시리즈 또는 데이터프레임을 합칠 수 있습니다.<br>
먼저 행 방향으로 합치는 실습을 위해, 이름과 직업 정보로 이루어진 두 개의 예시 인구조사 데이터프레임을 생성하겠습니다.

In [162]:
# 예시 데이터프레임 생성하기
list_1 = [{'Name': 'John', 'Job': "teacher"},
          {'Name': 'Nate', 'Job': "student"},
          {'Name': 'Fred', 'Job': "developer"}]
list_2 = [{'Name': 'Ed', 'Job': "dentist"},
          {'Name': 'Jack', 'Job': "farmer"},
          {'Name': 'Ted', 'Job': "designer"}]

df_1 = pd.DataFrame(list_1,
                    columns=['Name', 'Job'])
df_2 = pd.DataFrame(list_2,
                    columns=['Name', 'Job'])

`concat()`를 활용하여 첫번째 데이터프레임 (`df_1`)의 마지막 행 다음에 두번째 데이터프레임 (`df_2`)을 행 방향으로 (또는 `axis=0` 기준으로) 합쳐보겠습니다.

In [163]:
# concat를 활용하여 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 행로 합치기 (P)
frames = [df_1, df_2]
result = pd.concat(frames,
                   ignore_index=True) # default: axis=0
print(result)

   Name        Job
0  John    teacher
1  Nate    student
2  Fred  developer
3    Ed    dentist
4  Jack     farmer
5   Ted   designer


다음은 열 방향으로 합치는 실습입니다.<br>
열 방향으로 합치는 실습을 위해 이름, 직업 열을 가진 데이터프레임, 그리고 나이, 국적 열을 이루어진 데이터프레임을 각각 생성하겠습니다.

In [164]:
# 예시 데이터프레임 생성하기
list_1 = [{'Name': 'John', 'Job': "teacher"},
          {'Name': 'Nate', 'Job': "student"},
          {'Name': 'Jack', 'Job': "developer"}]
list_2 = [{'Age': 25, 'Country': "U.S"},
          {'Age': 30, 'Country': "U.K"},
          {'Age': 45, 'Country': "Korea"}]

df_1 = pd.DataFrame(list_1,
                    columns=['Name', 'Job'])
df_2 = pd.DataFrame(list_2,
                    columns=['Age', 'Country'])

`concat()`를 활용하여 첫번째 데이터프레임 (`df_1`)의 마지막 열 다음에 두번째 데이터프레임 (`df_2`)을 열 방향으로 (또는 `axis=1` 기준으로) 합쳐보겠습니다.

In [165]:
# concat를 활용하여 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 열로 합치기 (P)
frames = [df_1, df_2]
result = pd.concat(frames,
                   axis=1,
                   ignore_index=True)
print(result)

      0          1   2      3
0  John    teacher  25    U.S
1  Nate    student  30    U.K
2  Jack  developer  45  Korea


## 6-2. groupby 메서드 - 데이터프레임을 그룹별로 묶어 분할하기

종종 주어진 판다스 데이터프레임에서 통계 또는 집계 결과를 얻어야 할 상황이 있습니다.<br>
그럴 때 유용하게 사용할 수 있는 메서드로는 `groupby()` 메서드가 있습니다.<br>
`groupby()` 메서드 실습을 위해 우선 이름, 전공, 성별 정보로 이루어진 예시 인구조사 데이터프레임을 생성하겠습니다.

In [166]:
# 예시 데이터프레임 생성하기: 이름, 전공, 성별 데이터
student_list = [{'Name': 'John', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Nate', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Abraham', 'Major': "Physics", 'Sex': "male"},
                {'Name': 'Brian', 'Major': "Psychology", 'Sex': "male"},
                {'Name': 'Janny', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Yuna', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Jeniffer', 'Major': "Computer Science", 'Sex': "female"},
                {'Name': 'Edward', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Zara', 'Major': "Psychology", 'Sex': "female"},
                {'Name': 'Wendy', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Sera', 'Major': "Psychology", 'Sex': "female"}]
df_1 = pd.DataFrame(student_list, 
                    columns=['Name', 'Major', 'Sex'])
print(df_1)

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female


먼저 데이터를 전공별로 묶어보겠습니다.

In [167]:
# groupby() 메서드를 활용해 전공별로 데이터프레임 묶기 (P)
groupby_major = df_1.groupby('Major')
print(groupby_major.groups) # groupby()로 묶은 객체의 groups 속성을 조회; 딕셔너리 형태로 반환

{'Computer Science': [0, 1, 6, 7], 'Economics': [4, 5, 9], 'Physics': [2], 'Psychology': [3, 8, 10]}


`groupby()` 메서드로 생성한 객체는 아래와 같이 `name` (`groupby()`를 적용한 열의 유일값 시퀀스) 그리고 `group` (`name`으로 묶어진 데이터프레임의 부분집합)으로 나눌 수 있습니다.<br>
아래 예시와 같이 전공별로 묶은 데이터를 출력해보면, 한눈에 성별 분포를 파악할 수 있게 되는 것이 `groupby()` 메서드의 장점입니다.

In [168]:
# 전공별로 묶은 데이터프레임을 펼쳐보아 성별 분포를 확인하기 (P)
for name, group in groupby_major:
    print(name + ": " + str(len(group)))
    print(group, '\n')

Computer Science: 4
       Name             Major     Sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male 

Economics: 3
    Name      Major     Sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female 

Physics: 1
      Name    Major   Sex
2  Abraham  Physics  male 

Psychology: 3
     Name       Major     Sex
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female 



또한 `size()` 메서드를 활용하면 `groupby()`로 묶인 기준 (e.g. 전공)별 데이터 개수 (count)를 확인할 수 있습니다.

In [169]:
# groupby() 메서드를 활용해 전공별로 묶은 데이터의 count 값을 출력하기 (P)
df_major_cnt = pd.DataFrame({'Count': groupby_major.size()}).reset_index()
print(df_major_cnt)

              Major  Count
0  Computer Science      4
1         Economics      3
2           Physics      1
3        Psychology      3


그 다음은 데이터를 성별별로 묶어보겠습니다.<br>
마찬가지로 아래와 같이 성별별로 묶은 데이터프레임의 부분집합을 출력할 수 있습니다.

In [170]:
# groupby() 메서드를 활용해 성별별로 묶은 데이터를 펼쳐보아 전공 분포를 확인하기 (P)
groupby_Sex = df_1.groupby('Sex')
print(groupby_Sex.groups, '\n') 

for name, group in groupby_Sex:
    print(name + ": " + str(len(group)))
    print(group, '\n')

{'female': [4, 5, 6, 8, 9, 10], 'male': [0, 1, 2, 3, 7]} 

female: 6
        Name             Major     Sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female 

male: 5
      Name             Major   Sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male 



In [171]:
# groupby() 메서드를 활용해 성별별로 묶은 데이터의 count 값을 출력하기 (P)
df_Sex_cnt = pd.DataFrame({'Count': groupby_Sex.size()}).reset_index()
print(df_Sex_cnt)

      Sex  Count
0  female      6
1    male      5


**심화**<br>
`groupby()` 메서드를 활용하면 그룹별 기초통계량을 확인할 수 있습니다.<br>
먼저 의미있는 데이터 분석을 위해 레스토랑 종사자의 팁 수령액 예시 데이터프레임을 읽어오겠습니다.

* 유의사항: 통계 결과는 통계 계산이 가능한 수치형 데이터에 대해서만 산출합니다.

**[참고]** 
아래 코드 중 외부 인터넷 링크를 통한 코드가 정상 작동하지 않을 경우,
1. 아래 주석으로 적혀있는 CSV파일주소를 웹사이트에 복사/붙여넣기 하신 뒤 다운로드된 파일을 본 노트북(.ipynb) 파일이 있는 로컬 폴더로 이동시켜주시고,
2. '본 코드'를 주석처리하신 뒤,
3. 아래 있는 '대체 코드'를 주석처리 해제하여 실행해주시기 바랍니다. 

In [172]:
# 예시 데이터프레임 읽어오기: 레스토랑 종사자의 팁 수령액 데이터
'''
CSV파일주소: 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv'
'''

# # 본 코드
# tip_data = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv',
#                        sep = ',')
# print(tip_data)

# 대체 코드 (전제조건: 본 노트북이 저장된 로컬 폴더 내에 해당 CSV 데이터가 저장되어있어야 함)
tip_data = pd.read_csv('tips.csv',
                       sep = ',')
print(tip_data)

     total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]


In [173]:
# 평균 계산하기 (P)
print(tip_data.groupby('sex').mean(numeric_only=True)) # 판다스 버전에 따라 deprecated Warning 메시지가 뜰 수 있음

        total_bill       tip      size
sex                                   
Female   18.056897  2.833448  2.459770
Male     20.744076  3.089618  2.630573


In [174]:
# 분산 계산하기 (P)
print(tip_data.groupby('sex').var(numeric_only=True)) # 판다스 버전에 따라 deprecated Warning 메시지가 뜰 수 있음

        total_bill       tip      size
sex                                   
Female   64.147429  1.344428  0.879177
Male     85.497185  2.217424  0.913931


`groupby()`로 생성한 객체에 적용할 수 있는 다양한 통계함수의 목록은 아래와 같습니다.

|**함수**|**내용**     |
|-------|-------------|
|count  |데이터의 개수 |
|sum    |합계         |
|mean   |평균         |
|median |중앙값       |
|var    |분산         |
|std    |표준편차      |
|min    |최소값        |
|max    |최대값        |
|unique |고유값        |
|nunique|고유값의 개수 |
|prod   |곱           |
|first  |첫번째 값     |
|last   |마지막 값     |

---
# 7. Pandas를 활용한 데이터 전처리 (4) – 중복 / 결측 / 고유값 다루기

## 7-1. duplicated 메서드와 drop_duplicates 메서드 - 중복 데이터 확인 및 제외하기
이번에는 중복된 데이터를 확인하고 제외하는 방법에 대해 알아보겠습니다.<br>
중복 확인 및 제외 실습을 위해 우선 이름, 전공, 성별 정보로 이루어진 예시 인구조사 데이터프레임을 생성하겠습니다.

In [175]:
# 예시 데이터프레임 생성하기: 이름, 전공, 성별 데이터
student_list = [{'Name': 'John', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Nate', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Abraham', 'Major': "Physics", 'Sex': "male"},
                {'Name': 'Brian', 'Major': "Psychology", 'Sex': "male"},
                {'Name': 'Janny', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Yuna', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Jeniffer', 'Major': "Computer Science", 'Sex': "female"},
                {'Name': 'Edward', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Zara', 'Major': "Psychology", 'Sex': "female"},
                {'Name': 'Wendy', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Sera', 'Major': "Psychology", 'Sex': "female"},
                {'Name': 'John', 'Major': "Computer Science", 'Sex': "female"},
                {'Name': 'Nate', 'Major': None, 'Sex': "male"},
                {'Name': 'John', 'Major': "Computer Science", 'Sex': "male"}]
df_1 = pd.DataFrame(student_list,
                    columns=['Name', 'Major', 'Sex'])
print(df_1)

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female
11      John  Computer Science  female
12      Nate              None    male
13      John  Computer Science    male


`duplicated()` 메서드를 활용해 주어진 데이터프레임 내에서 중복된 데이터를 확인할 수 있습니다.

In [176]:
# 중복된 데이터 확인하기 (P)
print(df_1.duplicated())

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13     True
dtype: bool


`duplicated()` 메서드에 특정 열 이름을 시퀀스로 전달하면, 해당 특정 열 내에서 중복된 데이터가 존재할 경우 `True` 논리값을 반환합니다.

In [177]:
# 어느 한 열에 대해 중복 데이터 여부 표시하기 (P)
print(df_1.duplicated(['Name']))

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
12     True
13     True
dtype: bool


`drop_duplicates()` 메서드를 활용하면 중복된 데이터를 제외할 수 있습니다.

In [178]:
# 중복된 데이터 제외하기 (P)
print(df_1.drop_duplicates())

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female
11      John  Computer Science  female
12      Nate              None    male


`drop_duplicates()` 메서드를 활용해 중복된 값을 제거할 때에, `keep` 인자를 지정하여 중복된 값들 중 어떤 값을 대표값으로 취하여 살릴 지를 설정할 수 있습니다.<br>
이번에는 이름 열이 중복된 데이터들 중 가장 마지막 데이터만 남기고 모두 중복제거를 해보겠습니다.

In [179]:
# 중복된 값 제거하기 (P)
print(df_1.drop_duplicates(['Name'],
                           keep='last')) # default: keep='first'

        Name             Major     Sex
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female
12      Nate              None    male
13      John  Computer Science    male


참고로 `drop_duplicates()` 메서드를 사용하더라도 원본 데이터에는 변함이 없습니다.

In [180]:
# 원본 데이터 확인하기 (P)
print(df_1)

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female
11      John  Computer Science  female
12      Nate              None    male
13      John  Computer Science    male


## 7-2. 결측치 처리하기

몇몇 인공지능 알고리즘은 결측치가 있는 데이터에 대해 작동하지 않는다는 단점이 있습니다.<br>
따라서 이번에는 데이터에 결측치가 있을 때 처리하는 방법에 대해 실습하겠습니다.<br>
결측치 처리 실습을 위해 예시 데이터프레임을 생성하고 결측치를 `None`으로 할당하겠습니다.<br>

In [181]:
# 예시 데이터프레임 생성하기
school_id_list = [{'Name': 'Abraham', 'Job': "student", 'Age': 10},
                  {'Name': 'Brian', 'Job': "student", 'Age': 12},
                  {'Name': 'Janny', 'Job': "student", 'Age': 11},
                  {'Name': 'Nate', 'Job': "student", 'Age': None},
                  {'Name': 'John', 'Job': "teacher", 'Age': 40},
                  {'Name': 'Nate', 'Job': "teacher", 'Age': 35},
                  {'Name': 'Yuna', 'Job': "teacher", 'Age': 37},
                  {'Name': 'David', 'Job': "teacher", 'Age': None}]
df_1 = pd.DataFrame(school_id_list, columns = ['Name', 'Job', 'Age'])
print(df_1)

      Name      Job   Age
0  Abraham  student  10.0
1    Brian  student  12.0
2    Janny  student  11.0
3     Nate  student   NaN
4     John  teacher  40.0
5     Nate  teacher  35.0
6     Yuna  teacher  37.0
7    David  teacher   NaN


먼저 위에서 다룬 내용으로는 `isnull()` (또는 `isna()`) 메서드를 활용해 개별 원소의 결측치 여부를 확인하는 방법이 있습니다.

In [182]:
# 개별 원소의 결측치 여부 확인하기
# 방법 1. (P)
print(df_1.isna(), '\n')

# 방법 2. (P)
print(df_1.isnull())

    Name    Job    Age
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False   True
4  False  False  False
5  False  False  False
6  False  False  False
7  False  False   True 

    Name    Job    Age
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False   True
4  False  False  False
5  False  False  False
6  False  False  False
7  False  False   True


In [183]:
# 데이터프레임 열별 결측여부 확인하기 (P)
print(df_1.isnull().sum(axis=0)) # 행방향 (axis=0)으로 더하면 각 열별 결측여부를 알 수 있음

Name    0
Job     0
Age     2
dtype: int64


이외에도 데이터프레임의 전반적인 정보를 보기 위해서는 `info()` 메서드를 활용할 수 있습니다.<br>
해당 메서드를 통해 비결측치 수 (Non-Null Count)를 셀 수 있고, 총 행의 수 (RangeIndex: 'X' entries)에서 해당 비결측치 수를 빼면 각 열 (Column)별 결측치 개수를 셀 수 있습니다.

In [184]:
# 데이터프레임의 전반적인 정보 보기 (P)
print(df_1.info()) # Age 열에서 non-null 개수가 다른 열보다 2개 적음을 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    8 non-null      object 
 1   Job     8 non-null      object 
 2   Age     6 non-null      float64
dtypes: float64(1), object(2)
memory usage: 320.0+ bytes
None


이제 결측치를 확인했으니, 결측치를 대체하는 방법을 배워보겠습니다.<br>
데이터프레임의 `fillna()` 내장 메서드를 활용하면 결측치를 대체하여 채워넣을 값 (`fill_value`)을 임의로 할당하여 결측된 부분을 메울 수 있습니다.<br>
우선 `fill_value`를 0으로 설정해봅시다.

In [185]:
# fillna() 메서드로 결측치 채워넣기 (P)
tmp = df_1.copy() # 유의: copy() 메서드를 쓰지 않으면, 원본 데이터 (df_1)가 사본이 아니므로 fillna() 메서드가 원본까지 바꾸게 됨
tmp['Age'] = tmp['Age'].fillna(0)
print(tmp)

      Name      Job   Age
0  Abraham  student  10.0
1    Brian  student  12.0
2    Janny  student  11.0
3     Nate  student   0.0
4     John  teacher  40.0
5     Nate  teacher  35.0
6     Yuna  teacher  37.0
7    David  teacher   0.0


**심화**<br>
모든 상황에서 결측치를 단순하게 0으로 대체하는 것은 좋은 선택이 아닐 수 있습니다.<br>
많은 경우에, 주어진 데이터에서 보다 많은 정보를 취합한 뒤 이를 대표하는 `fill_value`를 지정하는 것이 종종 더 나은 결과를 가져다줍니다.

예시로 우리는 위에서 다룬 예시 데이터프레임을 선생님과 학생이라는 그룹으로 데이터를 구분할 수 있습니다.<br>
결측치를 그룹별로 나눠 해당 그룹에서 관측된 값들의 대표값으로 결측치를 대체한다면 더 좋은 결과를 얻을 수 있습니다.

In [186]:
# Age 열에서 발생한 결측치를 teacher, student의 그룹별 평균으로 각각 다르게 대체하기 (P)
# 방법 1. fillna + groupby + transform + mean
tmp = df_1.copy() # 유의: copy() 메서드를 쓰지 않으면, 원본 데이터 (df_1)가 사본이 아니므로 fillna() 메서드가 원본까지 바꾸게 됨
tmp['Age'] = tmp['Age'].fillna(tmp.groupby('Job')['Age'].transform("mean")).round(1) # 결과 가독성 위해 round 메서드 추가
print(tmp)

      Name      Job   Age
0  Abraham  student  10.0
1    Brian  student  12.0
2    Janny  student  11.0
3     Nate  student  11.0
4     John  teacher  40.0
5     Nate  teacher  35.0
6     Yuna  teacher  37.0
7    David  teacher  37.3


In [187]:
# 방법 2. groupby + apply + lambda + fillna + mean
tmp = df_1.copy() # 유의: copy() 메서드를 쓰지 않으면, 원본 데이터 (df_1)가 사본이 아니므로 fillna() 메서드가 원본까지 바꾸게 됨
tmp['Age'] = df_1.groupby('Job')['Age'].apply(lambda x : x.fillna(x.mean())).reset_index().Age.round(1) # 결과 가독성 위해 round 메서드 추가
print(tmp)

      Name      Job   Age
0  Abraham  student  10.0
1    Brian  student  12.0
2    Janny  student  11.0
3     Nate  student  11.0
4     John  teacher  40.0
5     Nate  teacher  35.0
6     Yuna  teacher  37.0
7    David  teacher  37.3


## 7-3. 데이터의 고유값 (unique) 확인하기
데이터프레임 열에 중복되는 여러 값이 있을 때, 데이터에 어떤 종류의 고유값들이 있는지 확인할 수 있습니다.

In [188]:
# 예시 데이터프레임 생성하기
job_list = [{'Name': 'John', 'Job': "teacher"},
            {'Name': 'Nate', 'Job': "teacher"},
            {'Name': 'Fred', 'Job': "teacher"},
            {'Name': 'Abraham', 'Job': "student"},
            {'Name': 'Brian', 'Job': "student"},
            {'Name': 'Janny', 'Job': "developer"},
            {'Name': 'Nate', 'Job': "teacher"},
            {'Name': 'Obrian', 'Job': "dentist"},
            {'Name': 'Yuna', 'Job': "teacher"},
            {'Name': 'Rob', 'Job': "lawyer"},
            {'Name': 'Brian', 'Job': "student"},
            {'Name': 'Matt', 'Job': "student"},
            {'Name': 'Wendy', 'Job': "banker"},
            {'Name': 'Edward', 'Job': "teacher"},
            {'Name': 'Ian', 'Job': "teacher"},
            {'Name': 'Chris', 'Job': "banker"},
            {'Name': 'Philip', 'Job': "lawyer"},
            {'Name': 'Janny', 'Job': "basketball player"},
            {'Name': 'Gwen', 'Job': "teacher"},
            {'Name': 'Jessy', 'Job': "student"}]
df_1 = pd.DataFrame(job_list,
                    columns=['Name', 'Job'])

원하는 열에 `unique()` 함수를 사용하면 중복 없이 해당 열에 있는 모든 고유값들을 출력할 수 있습니다.

In [189]:
# 열 고유값 출력하기 (P)
print(df_1.Job.unique())

['teacher' 'student' 'developer' 'dentist' 'lawyer' 'banker'
 'basketball player']


마지막으로 각 고유값에 몇 개의 원본 데이터가 대응하는지 `value_counts()` 함수로 확인할 수 있습니다.

In [190]:
# 열 고유값 별 대응 데이터 개수 출력하기 (P)
print(df_1.Job.value_counts())

Job
teacher              8
student              5
lawyer               2
banker               2
developer            1
dentist              1
basketball player    1
Name: count, dtype: int64


---
# 강의를 마치며
이로써 Pandas를 활용한 데이터 전처리 강의 내용을 모두 학습하였습니다.<br>
본 강의에서 다룬 데이터 전처리 방법 외에도 Pandas에서는 정말 많은 데이터 전처리 기능을 제공합니다.

앞으로 데이터 전처리를 위해 Pandas를 사용하실 때에는 Reference 페이지를 적극 활용하시면 큰 도움이 될 것이라 생각합니다.<br>(링크: https://pandas.pydata.org/docs/reference/index.html)