# 实验一 EDA

## 实验目标

统计分析之所以在数据科学研究中占有绝对重要的地位主要有两个原因。第一，它有助于更深层次理解数据，而这个过程就是所谓的**EDA(探索式数据分析)** 。第二，它有助于我们推断样本与整体的关系，这个过程称为**推断** 。本次实验我们将会通过分析一个非常有趣的实验集 - [Mobile Strategy Games](https://www.kaggle.com/tristan581/17k-apple-app-store-strategy-games) 来学习EDA和统计推断。

具体来说，你将会学习以下几点：

1. 能够对单列信息进行EDA分析
2. 能够从多列信息综合进行EDA分析
3. 能够从可视化图标中捕获信息
4. 能够对数据提出有建设性的问题并进行研究
5. 能够从样本估计整体情况

在本次实验中，你可以使用[pandas](https://pandas.pydata.org/) 或者PySpark来计算数据，并且使用 [matplotlib](https://matplotlib.org/) 或者 [seaborn](https://seaborn.pydata.org) 来做图。 


## Part 1. EDA

**嘿！你好**

在日常生活中，我们经常性地会直接或间接接触到游戏相关的内容。游戏发展至今，已经有了纷繁复杂的游戏玩法和游戏内容。就算你可能不是一位游戏发烧友，你也一定在手机之类的平台上玩过像数独(Soduku)这样的**决策类游戏**。今天，我们就以iOS平台下策略游戏为对象进行研究，带领大家对数据科学有一个更直观的概念。

哦，我们还没有说我们要干什么呢。本次我们当然不是要求大家开发游戏，而是更像作为一个数据分析师，来帮助一个刚刚成立的游戏工作室(或者个人)来决定应该开发什么样的游戏才能获得更好的收益。你需要考虑的是什么样的游戏比较受欢迎，怎么让游戏传播地更加迅速、反响更加热烈。

我们已经上传了数据集，当然你也可以从[原处](https://www.kaggle.com/tristan581/17k-apple-app-store-strategy-games)自行下载数据集，并和本文档放在同一目录之下。

这次的数据集总共包含16847个条目，每个条目含有URL和ID两个元属性以及其他16个属性变量，他们分别是：
1. URL -详情链接
2. ID -应用分配的ID
3. Name -游戏的名字
4. Subtitle -游戏的副标题
5. Icon URL -游戏封面图片链接
6. Average User Rating -平均用户评分（对齐到0.5）
7. User Rating Count -全球评分数量（NULL值代表低于5个）
8. Price -售价（单位美元）
9. In-app Purchases -各类内购信息
10. Description -应用描述
11. Developer -开发者
12. Age Rating -年龄分级情况（4+，9+，12+或17+）
13. Languages -ISO2A标准 语言种类识别码
14. Size -软件大小（单位Bytes）
15. Primary Genre -主分类
16. Genres -应用分类
17. Original Release Date -应用发布时间
18. Current Version Release Date -当前版本发布时间

请尽可能地使用这些数据，获得想要的分析结果！

我们先把数据集按照DataFrame的形式读入

In [1]:
import pandas as pd

import numpy as np

game_data = pd.read_csv("appstore_games.csv")


现在，我们开始EDA分析。

### Question 1. 显示数据 
显示前10条数据

In [15]:
# --- Write your code below ---

In [3]:
game_data.head(10)


Unnamed: 0,URL,ID,Name,Subtitle,Icon URL,Average User Rating,User Rating Count,Price,In-app Purchases,Description,Developer,Age Rating,Languages,Size,Primary Genre,Genres,Original Release Date,Current Version Release Date
0,https://apps.apple.com/us/app/sudoku/id284921427,284921427,Sudoku,,https://is2-ssl.mzstatic.com/image/thumb/Purpl...,4.0,3553.0,2.99,,"Join over 21,000,000 of our fans and download ...",Mighty Mighty Good Games,4+,"DA, NL, EN, FI, FR, DE, IT, JA, KO, NB, PL, PT...",15853568.0,Games,"Games, Strategy, Puzzle",11/07/2008,30/05/2017
1,https://apps.apple.com/us/app/reversi/id284926400,284926400,Reversi,,https://is4-ssl.mzstatic.com/image/thumb/Purpl...,3.5,284.0,1.99,,"The classic game of Reversi, also known as Oth...",Kiss The Machine,4+,EN,12328960.0,Games,"Games, Strategy, Board",11/07/2008,17/05/2018
2,https://apps.apple.com/us/app/morocco/id284946595,284946595,Morocco,,https://is5-ssl.mzstatic.com/image/thumb/Purpl...,3.0,8376.0,0.0,,Play the classic strategy game Othello (also k...,Bayou Games,4+,EN,674816.0,Games,"Games, Board, Strategy",11/07/2008,5/09/2017
3,https://apps.apple.com/us/app/sudoku-free/id28...,285755462,Sudoku (Free),,https://is3-ssl.mzstatic.com/image/thumb/Purpl...,3.5,190394.0,0.0,,"Top 100 free app for over a year.\nRated ""Best...",Mighty Mighty Good Games,4+,"DA, NL, EN, FI, FR, DE, IT, JA, KO, NB, PL, PT...",21552128.0,Games,"Games, Strategy, Puzzle",23/07/2008,30/05/2017
4,https://apps.apple.com/us/app/senet-deluxe/id2...,285831220,Senet Deluxe,,https://is1-ssl.mzstatic.com/image/thumb/Purpl...,3.5,28.0,2.99,,"""Senet Deluxe - The Ancient Game of Life and A...",RoGame Software,4+,"DA, NL, EN, FR, DE, EL, IT, JA, KO, NO, PT, RU...",34689024.0,Games,"Games, Strategy, Board, Education",18/07/2008,22/07/2018
5,https://apps.apple.com/us/app/sudoku-classic-n...,286210009,Sudoku - Classic number puzzle,Original brain training,https://is1-ssl.mzstatic.com/image/thumb/Purpl...,3.0,47.0,0.0,1.99,"Sudoku will tease your brain, challenge you or...",OutOfTheBit Ltd,4+,EN,48672768.0,Games,"Games, Entertainment, Strategy, Puzzle",30/07/2008,29/04/2019
6,https://apps.apple.com/us/app/gravitation/id28...,286313771,Gravitation,,https://is5-ssl.mzstatic.com/image/thumb/Purpl...,2.5,35.0,0.0,,"""Gravitation is a new implementation of the pu...",Robert Farnum,4+,,6328320.0,Games,"Games, Entertainment, Puzzle, Strategy",30/07/2008,14/11/2013
7,https://apps.apple.com/us/app/colony/id286363959,286363959,Colony,,https://is5-ssl.mzstatic.com/image/thumb/Purpl...,2.5,125.0,0.99,,"""50 levels of addictive puzzling strategy fun!...",Chris Haynes,4+,EN,64333824.0,Games,"Games, Strategy, Board",3/08/2008,3/10/2018
8,https://apps.apple.com/us/app/carte/id286566987,286566987,Carte,,https://is3-ssl.mzstatic.com/image/thumb/Purpl...,2.5,44.0,0.0,,"""Jeu simple qui consiste \xe0 trouver comment ...",Jean-Francois Pautex,4+,FR,2657280.0,Games,"Games, Strategy, Board, Entertainment",3/08/2008,23/11/2017
9,https://apps.apple.com/us/app/barrels-o-fun/id...,286682679,"""Barrels O' Fun""",,https://is4-ssl.mzstatic.com/image/thumb/Purpl...,2.5,184.0,0.0,,Barrels O\u2019 Fun is a simple but challengin...,BesqWare,4+,EN,1466515.0,Games,"Games, Casual, Strategy",1/08/2008,1/08/2008


### Question 2. 获取数据整体信息

从上一个问题的输出，你能看出数据总共有18列，请用describe()函数来获取大致统计信息。

In [16]:
# --- Write your code below ---

### Question 3. 处理缺失值

有一些条目的一些属性信息是缺失的(null)，妨碍了我们对数据的处理，请进行一些预处理。

比如没有内购信息的条目，补充数据为0；没有副标题的条目，补全副标题为NOSUBTITILE。

In [17]:
# --- Write your code below ---

### Question 4. 绘制折线图(Plot a line chart)

假如我们想知道”从08年到18年每年有多少游戏发布“，请绘制一幅折线图来说明结果。

In [12]:
# --- Write your code below ---

请写出**两个**从图中得到的有趣的发现。

**Findings**
1. [ADD TEXT]
2. [ADD TEXT]

### Question 5. 绘制条形图(Plot a bar chart)

注:histogram用来描述的是numerical变量，而bar plot用来描述的是categorical类型的变量.

假如你想知道每个不同游戏类型分类下都有多少游戏，请考虑如何绘制一幅条形图展现你的结果。

In [13]:
# --- Write your code below ---

请写出**两个**从图中得到的有趣的发现。

**Findings**
1. [ADD TEXT]
2. [ADD TEXT]

### Question 6. 绘制柱形图(Plot a histogram)

游戏的价格是如何分布的？绘制柱形图展现你的结果。

In [14]:
# --- Write your code below ---

请写出**两个**从图中得到的有趣的发现。

**Findings**
1. [ADD TEXT]
2. [ADD TEXT]

下次作业再见