In [1]:
import pandas as pd

reviews = pd.read_csv("./Data/winemag-data-130k-v2.csv", index_col=0)

### 데이터 타입

In [2]:
# Dtype : DataFrame 또는 Series의 열에 대한 데이터 유형

reviews.price.dtype
# price 열에 대한 데이터 유형은 float

dtype('float64')

In [3]:
# 모든 열의 속성을 한번에 알 수도 있다

reviews.dtypes

country                   object
description               object
designation               object
points                     int64
price                    float64
province                  object
region_1                  object
region_2                  object
taster_name               object
taster_twitter_handle     object
title                     object
variety                   object
winery                    object
dtype: object

In [4]:
# 데이터 유형은 판다스가 내부적으로 데이터를 어떻게 저장하는지 알려준다
# 여기서 float64는 64비트의 부동 소수점 숫자를 의미하며 int64 는 64비트 크기의 정수를 의미한다
# 단, 문자열로만 구성된 열의 경우는 자체 유형을 갖지않고 단지 'object'로만 표시된다

In [5]:
# astype() : 열의 데이터 유형을 변환하는 함수

reviews.points.astype('float64')
# int64 형식의 point 열의 데이터를 float64로 변환

0         87.0
1         87.0
2         87.0
3         87.0
4         87.0
          ... 
129966    90.0
129967    90.0
129968    90.0
129969    90.0
129970    90.0
Name: points, Length: 129971, dtype: float64

In [6]:
# 또한 DataFrame과 Series의 인덱스도 자체적인 dtype을 가진다
reviews.index.dtype

dtype('int64')

### 결측치(Missing values)

In [7]:
# 값이 없는 항목에는 'NaN'으로 표시되면 이는 Not a Number(숫자가 아님)의 약자이다
# NaN 값은 항상 float64를 dtype으로 가진다

In [8]:
# pd.isnull() : null값인지 아닌지 참과 거짓을 구분 >> null값일 경우 True
# pd.notnull() : null값인지 아닌지 참과 거짓을 구분 >> null값이 아닐 경우 True

reviews[pd.isnull(reviews.country)]
# reviews 데이터 프레임의 country 열의 값이 null값인지 구분하여 True인 열만 추출

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
913,,"Amber in color, this wine has aromas of peach ...",Asureti Valley,87,30.0,,,,Mike DeSimone,@worldwineguys,Gotsa Family Wines 2014 Asureti Valley Chinuri,Chinuri,Gotsa Family Wines
3131,,"Soft, fruity and juicy, this is a pleasant, si...",Partager,83,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager Red,Red Blend,Barton & Guestier
4243,,"Violet-red in color, this semisweet wine has a...",Red Naturally Semi-Sweet,88,18.0,,,,Mike DeSimone,@worldwineguys,Kakhetia Traditional Winemaking 2012 Red Natur...,Ojaleshi,Kakhetia Traditional Winemaking
9509,,This mouthwatering blend starts with a nose of...,Theopetra Malagouzia-Assyrtiko,92,28.0,,,,Susan Kostrzewa,@suskostrzewa,Tsililis 2015 Theopetra Malagouzia-Assyrtiko W...,White Blend,Tsililis
9750,,This orange-style wine has a cloudy yellow-gol...,Orange Nikolaevo Vineyard,89,28.0,,,,Jeff Jenssen,@worldwineguys,Ross-idi 2015 Orange Nikolaevo Vineyard Chardo...,Chardonnay,Ross-idi
...,...,...,...,...,...,...,...,...,...,...,...,...,...
124176,,This Swiss red blend is composed of four varie...,Les Romaines,90,30.0,,,,Jeff Jenssen,@worldwineguys,Les Frères Dutruy 2014 Les Romaines Red,Red Blend,Les Frères Dutruy
129407,,Dry spicy aromas of dusty plum and tomato add ...,Reserve,89,22.0,,,,Michael Schachner,@wineschach,El Capricho 2015 Reserve Cabernet Sauvignon,Cabernet Sauvignon,El Capricho
129408,,El Capricho is one of Uruguay's more consisten...,Reserve,89,22.0,,,,Michael Schachner,@wineschach,El Capricho 2015 Reserve Tempranillo,Tempranillo,El Capricho
129590,,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ


In [9]:
# 이런 형식으로 데이터 프레임에 바로 사용할 수도 있다
reviews.isnull()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,False,False,False,False,True,False,False,True,False,False,False,False,False
1,False,False,False,False,False,False,True,True,False,False,False,False,False
2,False,False,True,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,True,False,True,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129966,False,False,False,False,False,False,True,True,False,True,False,False,False
129967,False,False,True,False,False,False,False,False,False,False,False,False,False
129968,False,False,False,False,False,False,False,True,False,False,False,False,False
129969,False,False,True,False,False,False,False,True,False,False,False,False,False


In [10]:
reviews['country'].isnull()

0         False
1         False
2         False
3         False
4         False
          ...  
129966    False
129967    False
129968    False
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

결측치 채우기

In [11]:
# fillna() : 결측치 값을 채워주는 함수

reviews.region_2.fillna("Unknown")
# region_2 열의 결측치(NaN)값을 'Unknown'으로 채운다

0                   Unknown
1                   Unknown
2         Willamette Valley
3                   Unknown
4         Willamette Valley
                ...        
129966              Unknown
129967         Oregon Other
129968              Unknown
129969              Unknown
129970              Unknown
Name: region_2, Length: 129971, dtype: object

In [13]:
# replace() : 특정 값을 다른 값으로 대체한다
# 결측치가 아니더라도 특정 값을 다른 것으로 바꿀 때 사용한다

reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")
# taster_twitter_handle 열의 '@kerinokeefe' 값을 전부 '@kerino'로 대체한다

0             @kerino
1          @vossroger
2         @paulgwine 
3                 NaN
4         @paulgwine 
             ...     
129966            NaN
129967    @paulgwine 
129968     @vossroger
129969     @vossroger
129970     @vossroger
Name: taster_twitter_handle, Length: 129971, dtype: object