## 用 Tableau 数据可视化案例
### 数据集概要 

这次数据集的基本信息：

- 数据集大小：38738条
- 字段：电影名称、类型、产地、上映时间、年代、时长、评分、投票人数、首映地点
- 有缺失值

> 数据集来源：豆瓣电影.csv

### 获取数据集

In [15]:
import pandas as pd
import numpy as np
import os

# xlsx 转成 csv 格式  
# 需要安装 openpyxl 这个库 读写excel文件
def xlsx_to_csv(file_name):
    save_name = os.path.splitext(file_name)[0]
    data_xls = pd.read_excel(file_name)
    save_file = r'{}.csv'.format(save_name)
    data_xls.to_csv(save_file, encoding='utf-8')
    return save_file

file_name = "豆瓣电影数据.xlsx"
xlsx_to_csv(file_name)
new_file = r'{}.csv'.format(os.path.splitext(file_name)[0]) 
data = pd.read_csv(new_file,encoding='utf-8')
data.head()

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0,0,肖申克的救赎,692795.0,剧情,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1,1,控方证人,42995.0,剧情,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2,2,美丽人生,327855.0,剧情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3,3,阿甘正传,580897.0,剧情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4,4,霸王别姬,478523.0,剧情,中国,1993-01-01 00:00:00,171,1993,9.4,香港


### 数据集的大致信息

In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38738 entries, 0 to 38737
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Unnamed: 0    38738 non-null  int64  
 1   Unnamed: 0.1  38738 non-null  int64  
 2   名字            38178 non-null  object 
 3   投票人数          38738 non-null  float64
 4   类型            38738 non-null  object 
 5   产地            38738 non-null  object 
 6   上映时间          38738 non-null  object 
 7   时长            38738 non-null  object 
 8   年代            38738 non-null  int64  
 9   评分            38738 non-null  float64
 10  首映地点          38737 non-null  object 
dtypes: float64(2), int64(3), object(6)
memory usage: 3.3+ MB


### 数据集缺失值详情

In [32]:
null_total =data.isnull().sum().sort_values(ascending=False)
null_info = data.isnull().sum()/data.isnull().count()
percent_1 = round(null_info*100,1).sort_values(ascending=False)
miss_data = pd.concat([null_total,percent_1],axis=1,keys=['miss_total','percent%'])
miss_data 

Unnamed: 0,miss_total,percent%
名字,560,1.4
首映地点,1,0.0
评分,0,0.0
年代,0,0.0
时长,0,0.0
上映时间,0,0.0
产地,0,0.0
类型,0,0.0
投票人数,0,0.0
Unnamed: 0.1,0,0.0


数据集
- 电影名称特征有560个缺失值，这不太可能进行填补，看起来要从数据集中删除它。
- 首映地点特只有1个缺失值。

### 基础数据 Tableau 仪表板

![豆瓣电影数据仪表板](豆瓣电影数据仪表板.png)

#### 仪表板详解
![电影评分的直方图](作业1-电影评分的直方图.png)
![各国家电影数量](作业1-各国家电影数量.png)
![电影数量折线图](作业2-电影数量折线图.png)
![剧情、喜剧、动作三类电影环形图](作业2-剧情、喜剧、动作三类电影环形图.png)

### 多维分析 Tableau 图表

![不同类型电影数量的气泡图](作业3-不同类型电影数量的气泡图.png)
![电影产地与平均评分的树形图](作业3-电影产地与平均评分的树形图.png)
![2012年各国家电影产量标靶图](作业 4-2012年各国家电影产量标靶图.png)