# 数据格式与缺失值（Data types & Missing values）
这一节中你会学习如何调查 Dataframe 或者 Series 内的数据类型，以及如何寻找和替换数据条目（entries）。

In [1]:
import pandas as pd
pd.set_option("display.max_rows", 5)
# 读取红酒评价数据集
wine_reviews = pd.read_csv("winemag-data-50k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


## Dtypes
Dataframe 或者 Series 中每一列（column）的数据类型就是所谓的 **dtype**<p>
我们不妨随便抓一列数据看看它的属性是啥：

In [2]:
wine_reviews.price.dtype

dtype('float64')

Dataframe每一列都可以调用 **dtype** 属性（property），或者我们可以用 **dtypes** 属性来看数据集的全部columns：

In [3]:
wine_reviews.dtypes

country        object
description    object
                ...  
variety        object
winery         object
Length: 13, dtype: object

通过数据类型我们可以知道pandas是如何在内部存储数据的。float64意味着采用64-bit浮点数；int64就是同样大小的整数，等等..<p>
有个奇特的点需要注意，就是所有string类型的数据对应的dtype都是 **object** 类型。<p>
我们可以通过 **astype()** 操作来转换某一列的数据类型，比如把points字段的数据从int64整数换成float64浮点数：

In [4]:
wine_reviews.points.astype('float64')

0        87.0
1        87.0
         ... 
49998    90.0
49999    90.0
Name: points, Length: 50000, dtype: float64

索引也是有数据类型的喔！

In [5]:
wine_reviews.index.dtype

dtype('int64')

Pandas还支持很多其他数据类型，例如类别数据（categorical data）和时间序列数据（timeseries data）等，由于不太常用这里就不过多赘述了。

## 缺失值（Missing values）
日常所见的数据集中，通常缺失的数据会被赋予 **NaN** 的值，意思是 Not a Number。<p>
在第二节中（我猜你已经忘了）我们提到过缺失值的选择器 **pd.isnull()** 和 **pd.notnull()** ，他们是选择 **NaN** 的好帮手：

In [6]:
wine_reviews[pd.isnull(wine_reviews.country)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
913,,"Amber in color, this wine has aromas of peach ...",Asureti Valley,87,30.0,,,,Mike DeSimone,@worldwineguys,Gotsa Family Wines 2014 Asureti Valley Chinuri,Chinuri,Gotsa Family Wines
3131,,"Soft, fruity and juicy, this is a pleasant, si...",Partager,83,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager Red,Red Blend,Barton & Guestier
...,...,...,...,...,...,...,...,...,...,...,...,...,...
49427,,This dark-garnet wine has aromas of eucalyptus...,Hrumki Syrah Melnik 55 Mourvèdre Marselan,88,19.0,,,,Jeff Jenssen,@worldwineguys,Orbelus 2013 Hrumki Syrah Melnik 55 Mourvèdre ...,Red Blend,Orbelus
49510,,"Aromas of cherry, blueberry and rose petal pre...",,91,34.0,,,,Mike DeSimone,@worldwineguys,Psagot 2013 Cabernet Sauvignon,Cabernet Sauvignon,Psagot


### fillna()
找到缺失值，接下来最常见的操作就是替换掉它，Pandas提供了一个非常好使的功能 **fillna()**<p>
比如我们可以把所有的缺失值都替换成字符串 "UnKnown"

In [7]:
wine_reviews.region_2.fillna("Unknown") # 这个操作只会把 NaN 的数据改成 UnKnown，有值的数据不会变。

0                 Unknown
1                 Unknown
               ...       
49998             Unknown
49999    Washington Other
Name: region_2, Length: 50000, dtype: object

### dropna()
既然可以填充，那必然也可以丢弃缺失值，pandas也提供了相对应的功能 **dropna()**<p>
DataFrame.dropna()                     去掉有缺失项的行<p>
DataFrame.dropna(axis='columns')            去掉有缺失项的列<p>
DataFrame.dropna(how='all')               去掉所有项均缺失的行<p>
DataFrame.dropna(thresh=2)                保留至少有两个非空项的行

In [8]:
wine_reviews.region_2.dropna()

2        Willamette Valley
4        Willamette Valley
               ...        
49997      Columbia Valley
49999     Washington Other
Name: region_2, Length: 19215, dtype: object

可以看到上面操作 fillna 的时候数据量（length）是50000条，现在丢弃了缺失值之后只剩下了19215条数据。

### replace()
我们有时候也会需要替换一些非空值（not-null value）。比如红酒评价的数据集发布之后，评论员 Kerin O'Keefe 将他的推特id从原先的 @kerinokeefe 改为了 @kerino ，这个时候我们就需要用到 **replace** 功能了。

In [9]:
wine_reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

0            @kerino
1         @vossroger
            ...     
49998            NaN
49999    @paulgwine 
Name: taster_twitter_handle, Length: 50000, dtype: object

**replace** 功能之所以要在这里提到，另一个原因是，有时候我们拿到的数据集中没用的数据不一定都是 **NaN** ，它也可能被赋予了一些特殊的值，比如："Unknown", "Undisclosed", "Invalid" 等。这时候我们就可以用 **replace** 功能来替换掉它们。<p>
关于 **replace** 功能的深入使用方法可以查询官方文档：[pandas.DataFrame.replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html#pandas.DataFrame.replace)