# 인트로

본 튜토리얼에서는 데이터프레임 혹은 시리즈의 데이터 타입을 살피는 방법을 알아봅니다. 또한 항목을 찾고 수정하는 방법도 배우게 됩니다.

# Dtypes

데이터프레임의 열이나 시리즈의 데이터 타입을 **dtype** 이라고 합니다.

`dtype` 속성을 이용하여 특정 열의 타입을 얻을 수 있습니다. 예를 들어, `reviews` 데이터프레임에서 `price` 열의 dtype을 가져올 수 있습니다:

In [1]:
import pandas as pd
reviews = pd.read_csv("../../data/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
pd.set_option('max_rows', 5)

In [2]:
reviews.price.dtype

dtype('float64')

다른 방법으로, `dtypes` 속성은 데이터프레임의 _모든_ 열의 `dtype`을 반환합니다.

In [3]:
reviews.dtypes

country        object
description    object
                ...  
variety        object
winery         object
Length: 13, dtype: object

데이터 타입은 판다스가 데이터를 내부적으로 어떻게 저장하는지 알려줍니다. `float64`는 64비트 부동소수점 숫자를 사용한다는 의미입니다; `int64`는 같은 크기의 정수를 의미하는 식입니다.

명심해야 할 한 가지 특징은 문자열로 구성된 열은 그 고유 타입을 가지지 않는다는 것입니다; 대신 `object` 타입을 가집니다.

`astype()` 함수를 사용하여 열의 타입을 가능한 다른 타입으로 변환할 수 있습니다. 예를 들어 `points` 열을 기존 `int64` 타입에서 `float64` 타입으로 변환할 수 있습니다:

In [4]:
reviews.points.astype('float64')

0         87.0
1         87.0
          ... 
129969    90.0
129970    90.0
Name: points, Length: 129971, dtype: float64

데이터프레임과 시리즈의 인덱스에도 고유한 `dtype`이 있습니다:

In [5]:
reviews.index.dtype

dtype('int64')

판다스는 범주형 데이터 및 시계열 데이터와 같은 색다른 데이터 타입 또한 지원합니다. 이러한 데이터 타입은 거의 사용되지 않으므로 본 튜토리얼의 후반까지 생략하겠습니다.

# 결측값

결측값은 "Not a Number"의 줄임말인 `NaN`으로 지정됩니다. 기술적인 이유로 이러한 `NaN` 값은 언제나 `float64` dtype입니다.

판다스는 결측값에 특화된 몇 가지 메소드를 제공합니다. `NaN` 항목을 선택하려면 `pd.isnull()`를 (또는 그 동반자 `pd.notnull()`) 사용할 수 있습니다. 이는 다음과 같이 사용됩니다:

In [6]:
reviews[pd.isnull(reviews.country)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
913,,"Amber in color, this wine has aromas of peach ...",Asureti Valley,87,30.0,,,,Mike DeSimone,@worldwineguys,Gotsa Family Wines 2014 Asureti Valley Chinuri,Chinuri,Gotsa Family Wines
3131,,"Soft, fruity and juicy, this is a pleasant, si...",Partager,83,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager Red,Red Blend,Barton & Guestier
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129590,,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ
129900,,This wine offers a delightful bouquet of black...,,91,32.0,,,,Mike DeSimone,@worldwineguys,Psagot 2014 Merlot,Merlot,Psagot


결측값을 교체하는 것은 일반적인 작업입니다. 판다스는 이 문제에 정말 유용한 메소드를 제공합니다: `fillna()`. `fillna()`는 이러한 데이터를 줄이는 몇 가지 방법을 제공합니다. 예를 들어, 각 `NaN`을 `"Unknown"`으로 간단히 바꿀 수 있습니다:

In [7]:
reviews.region_2.fillna("Unknown")

0         Unknown
1         Unknown
           ...   
129969    Unknown
129970    Unknown
Name: region_2, Length: 129971, dtype: object

또는 각 결측값을 그 데이터 뒤에 나타나는 null이 아닌 첫 번째 값으로 채울 수도 있습니다. 이를 backfill 전략이라고 합니다.

또는 교체하고 싶은 null이 아닌 값이 있을 수 있습니다. 예를 들어, 이 데이터셋이 게시된 후 Kerin O'Keefe가 트위터 아이디를 `@kerinokeefe`에서 `@kerino`로 변경했다고 가정합시다. 이를 데이터셋에 반영하는 방법은 `replace()` 메소드를 사용하는 것입니다:

In [8]:
reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

0            @kerino
1         @vossroger
             ...    
129969    @vossroger
129970    @vossroger
Name: taster_twitter_handle, Length: 129971, dtype: object

`replace()` 메소드는 데이터셋의 센티넬 값(sentinel value)으로 표현된 결측값을 교체할 때 유용합니다: `"Unknown"`, `"Undisclosed"`, `"Invalid"` 등.