# 3 - 数据预览与预处理
<br>

在拿到数据第一步当然是对数据做一个大概的浏览，以及对缺失值重复值进行相关处理。

本小节就将练习这部分的基本操作。

注意1：为了尽可能多的介绍不同方法，因此本节部分操作不是必须的。

注意2:当进入到 pandas 操作数据时，很多答案并非唯一也并非最优。
 

## 加载数据

In [1]:
import pandas as pd
df = pd.read_excel("TOP250.xlsx")

## 数据查看

### 1 - 查看数据维度

先看看数据多少行，多少列，对接下来的处理量心里有个数

In [3]:
df.shape

(262, 11)

### 2 - 随机查看5条数据

In [2]:
df.sample(1)

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
207,奇迹男孩,2017,8.6,465218.0,斯蒂芬·卓博斯基,斯蒂芬·卓博斯基 / 斯蒂夫·康拉德 / 杰克·索恩 / R·J·帕拉西奥,雅各布·特伦布莱 / 朱莉娅·罗伯茨 / 伊扎贝拉·维多维奇 / 欧文·威尔逊 / 诺亚·尤...,剧情 / 家庭 / 儿童,美国,英语,113.0


### 3 - 查看数据前后5行

In [5]:
df.head(1)

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
0,肖申克的救赎,1994,9.7,2317937.0,弗兰克·德拉邦特,弗兰克·德拉邦特 / 斯蒂芬·金,蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 / 威廉姆·赛德勒 / 克兰西·布朗 / 吉...,剧情 / 犯罪,美国,英语,142.0


In [6]:
df.tail(1)

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
261,黑鹰坠落,2001,8.7,239402.0,雷德利·斯科特,肯·诺兰 / 马克·鲍登,乔什·哈奈特 / 伊万·麦克格雷格 / 汤姆·塞兹摩尔 / 金·寇兹 / 艾文·布莱纳 / ...,动作 / 历史 / 战争,美国,英语,144.0


### 4 - 查看数据基本信息

看看数据类型，有无缺失值什么的

In [7]:
df.dtypes

片名         object
上映年份        int64
评分        float64
评价人数      float64
导演         object
编剧         object
主演         object
类型         object
国家/地区      object
语言         object
时长(分钟)    float64
dtype: object

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 262 entries, 0 to 261
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   片名      262 non-null    object 
 1   上映年份    262 non-null    int64  
 2   评分      257 non-null    float64
 3   评价人数    259 non-null    float64
 4   导演      262 non-null    object 
 5   编剧      262 non-null    object 
 6   主演      262 non-null    object 
 7   类型      262 non-null    object 
 8   国家/地区   256 non-null    object 
 9   语言      256 non-null    object 
 10  时长(分钟)  256 non-null    float64
dtypes: float64(3), int64(1), object(7)
memory usage: 22.6+ KB


### 5 - 查看数据统计信息｜数值

查看 **数值型** 列的统计信息，计数、均值什么的

In [14]:
df.describe().round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
上映年份,262.0,2000.6,15.57,1931.0,1995.0,2004.0,2011.0,2019.0
评分,257.0,8.91,0.26,8.4,8.7,8.9,9.1,9.7
评价人数,259.0,577631.72,367670.85,106462.0,335307.5,479949.0,693230.5,2317937.0
时长(分钟),256.0,121.83,28.08,45.0,101.75,118.0,136.0,237.0


### 6 - 查看数据统计信息｜离散

查看 **离散型** 列的统计信息，计数、频率什么

In [11]:
df.describe(include=['O'])

Unnamed: 0,片名,导演,编剧,主演,类型,国家/地区,语言
count,262,262,262,262,262,256,256
unique,249,180,221,249,120,20,26
top,无人知晓,是枝裕和,是枝裕和,柳乐优弥 / 北浦爱 / 木村飞影 / 清水萌萌子 / 韩英惠 / 江原由希子 / 串田和美...,剧情,美国,英语
freq,5,8,7,5,24,111,72


## 缺失值处理

### 7 - 计算缺失值｜分列

再看看具体每列有多少缺失值

In [30]:
df.isna().sum()

片名        0
上映年份      0
评分        5
评价人数      3
导演        0
编剧        0
主演        0
类型        0
国家/地区     6
语言        6
时长(分钟)    6
dtype: int64

### 8 - 计算缺失值｜总计

通过上面的查看，我们发现部分列是存在缺失值的，那么先看看一共存在多少个缺失值

In [31]:
df.isna().sum().sum()

26

### 9 - 查看缺失值

</br>

为了后面更方便的处理缺失值，现在先看看全部缺失值所在的行

In [37]:
df[df.isnull().T.any() == True][:1]

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
6,千与千寻,2001,9.4,1822369.0,宫崎骏,宫崎骏,柊瑠美 / 入野自由 / 夏木真理 / 菅原文太 / 中村彰男 / 玉井夕海 / 神木隆之介...,剧情 / 动画 / 奇幻,日本,日语,


### 12 - 删除缺失值

<br>

处理缺失值最简单的方式，当然是将缺失值出现的行全部删掉～

-> 现在，将缺失值出现的行全部删掉

In [None]:
df = df.dropna()

### 13 - 缺失值补全｜整体填充

<br>

除了删除缺失值最省事之外，将全部缺失值替换为一个 **固定的值/文本** 也是一个较为省事的方法'

-> 现在，将全部缺失值替换为 `*`

In [None]:
df = df.fillna('*') 

### 14 - 缺失值补全｜向上填充

从上一小节的查看数据中，不难发现整理数据是按照评分进行降序排列的

因此对于评分列的缺失值处理，我们可以用上一个电影的评分进行填充

-> 现在将评分列的缺失值，替换为上一个电影的评分

In [76]:
df['评分'] = df['评分'].fillna(
    axis=0,method='ffill'
)

### 15 - 缺失值补全｜整体均值填充

对于评价人数列的缺失值处理，我们可以使用整列的均值进行填充

-> 现在，将评价人数列的缺失值，用整列的均值进行填充

In [89]:
df['评价人数'] = df['评价人数'].fillna(
    df['评价人数'].mean()
)

### 16 - 缺失值补全｜上下均值填充

<br>

除了可以使用整列的均值进行填充，也可以使用缺失值位置的上下均值进行填充、

-> 现在，将评价人数列的缺失值，用上下数字的均值进行填充

In [97]:
df['评价人数'] = df['评价人数'].fillna(
    df['评价人数'].interpolate()
)

### 17 -缺失值补全｜匹配填充

<br>

除了利用均值填充，有时还需要根据另一列的值进行匹配填充

-> 现在填充 “语言” 列的缺失值，要求根据 “国家/地区” 列的值进行填充

> 例如 《海上钢琴师》国家/地区为 意大利，根据其他意大利国家对应的语言来看，应填充为 意大利语

**注意：此题会有多种解法**

In [122]:
df['语言']=df.groupby('国家/地区').语言.bfill()

## 重复值处理

### 18 - 查找重复值

<br>

将全部重复值所在的行筛选出来

In [39]:
df[df.duplicated()][:1]

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
111,无人知晓,2004,9.1,233881.0,是枝裕和,是枝裕和,柳乐优弥 / 北浦爱 / 木村飞影 / 清水萌萌子 / 韩英惠 / 江原由希子 / 串田和美...,剧情,日本,日语,141.0


### 19 -查找重复值｜指定

上面是所有列完全重复的情况，但有时我们只需要根据某列查找重复值

-> 查找 片名 列全部重复值



In [40]:
df[df.duplicated(['片名'])][:1]

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
111,无人知晓,2004,9.1,233881.0,是枝裕和,是枝裕和,柳乐优弥 / 北浦爱 / 木村飞影 / 清水萌萌子 / 韩英惠 / 江原由希子 / 串田和美...,剧情,日本,日语,141.0


### 20 - 删除重复值

删除全部的重复值

In [None]:
df = df.drop_duplicates()

### 21 - 删除重复值｜指定

删除全部的重复值，但保留最后一次出现的值

In [142]:
# default 'first'
#  can be False : 
#     Drop all duplicates.
df = df.drop_duplicates(keep = 'last')