### 主题：利用Python进行数据控制、处理、分析、展示等方面的具体细节和基本要点。
<br>
通过介绍Python编程和用于数据处理的库和工具环境,可以让需要掌握数据处理和对数据处理有兴趣的同学得到一个更宽阔的认识。</h3>

---
# <center>1. 数据</center>

## 1.1 什么是数据
这里出现的“数据”，究竟指的是什么呢？

主要指的是**<font color=blue>结构化数据</font>**（structured data），这个含糊其辞的术语代指了所有通用格式的数据，例如：
* 表格型数据，其中各列可能是不同的类型（字符串、数值、日期等）。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。
* 多维数组（矩阵）。
* 通过关键列（对于SQL用户而言，就是主键和外键）相互联系的多个表。
* 间隔平均或不平均的时间序列。

如果不太能理解的话，可以简单地理解为excel表中数据

## 1.2 数据处理和分析的步骤
尽管同学们各自的工作任务不同，但是数据的处理始终贯穿我们的学习。<br>
其处理和分析的过程大致上可以分为这几步：
1. <h4>获取数据</h4><br>
      与外部世界交互，阅读编写多种文件格式和数据存储；
2. <h4>数据准备</h4><br>
      清洗、修改、结合、标准化、重塑、转换，以便于进行下一步的分析；
3. <h4>转换数据</h4><br>
  对旧的数据集进行数学和统计操作，生成新的数据集（例如，通过各组变量聚类成大的表）；
4. <h4>建模和计算</h4><br>
  将数据绑定统计模型、机器学习算法、或其他计算工具；
5. <h4>展示</h4><br>
  创建交互式和静态的图表可视化和文本总结。

## 1.3 数据处理的常用操作

这里的数据是针对结构化数据，即表格或者矩阵。

|操作名称|函数|说明|
|--|--|--|
|读取excel|read_excel||
|读取csv|read_csv||
|选取前几列|iloc||
|插入数据|insert|data.insert(loc = 1,column = 'x' , value = 1024)  在第二列插入指定列名的列  改变原来的data|
|唯一值|unique||
|合并|concat|pd.concat([data1, data2])  将多个列相同的数据集合并后再分析|
|重置索引|reset_index|重组后的数据需要重置索引，通常发生在选择或排序操作后|
|表连接|merge||
|排序|sort|data.sort(reverse = True) 从小到大排|
|分类汇总|groupby|data.groupby('year') 根据year列的值来进行分组|
|应用函数|apply|data.apply(sum) 对所有数据进行某一个操作|

## 1.4 数据集

数据集(Data Set)是一个数据的集合，通常以<font color=blue>表格</font>形式出现。
大部分数据集都能被转化为更加适合分析和建模的结构化形式，虽然有时这并不是很明显。

如果不行的话，也可以将数据集的特征提取为某种结构化形式。例如，一组新闻文章可以被处理为一张词频表，而这张词频表就可以用于情感分析。

**Excel文件**

Top250.xls是豆瓣电影评分Top250的影片信息表，包括：片名、上映年份、评分、评价人数、导演、编剧、主演、类型、国家/地区、时长等信息。

In [1]:
import warnings
warnings.filterwarnings("ignore")

import pandas as pd

path = '../datasets/Top250.xls'
dataframe = pd.read_excel(path, sheetname=0, header=0)
dataframe.head(10)

FileNotFoundError: [Errno 2] No such file or directory: '../datasets/T.xls'

**CSV文件**

.csv文件是一种特殊格式的纯文本文件。即是一组字符序列，字符之间以英文字符的逗号或制表符（Tab）分隔。poem.csv文件是包含了唐代所有诗人和作品数量的数据集。

In [None]:
import pandas as pd

path = '../datasets/poem.csv'
dataframe = pd.read_csv(path)
dataframe.head(5)

---
# <center>2. 常用的Python库</center>

Python库是指python中的完成一定功能的、提供用户使用的代码集合。<br>
不同的Python库，有着不同的功能。下面我先对一些常用的Python库做一个简单的介绍。

## 1. 数据爬取

|名称|作用|
|--|--|
|scrapy|网页采集、爬虫。|
|scrapy-redis|分布式爬虫。|
|selenium|web测试、仿真浏览器。|

## 2. 数据读取

|名称|作用|
|--|--|
|beautifulsoup|网页解释库，提供lxml的支持|
|lxml|xml解释库|
|xlrd|excel文件读取|
|xlwt|excel文件写入|
|slutls|excel文件简单格式修改|
|pywin32|excel文件的读取写入及复杂格式定制|
|Python-docx|Word文件的读取写入|

## 3. 数据处理和分析

|名称|作用|
|--|--|
|numpy|基于矩阵的数学计算库|
|pandas|基于表格的统计分析库|
|scipy|科学计算库，支持高阶抽象和复杂模型|
|statsmodels|统计建模和计量经济学工具包|
|scikit-learn|机器学习工具库|
|gensim|自然语言处理工具库|
|jieba|中文分词工具库|

## 4. 数据存储

|名称|作用|
|--|--|
|MySQL-python|mysql的读写接口库|
|mysqlclient|mysql的读写接口库|
|SQLAlchemy|数据库的ORM封装|
|pymysql|sqlserver读写接口库|
|redis|redis的读写接口|
|PyMongo|MongoDB的读写接口|

## 5. 数据展示

|名称|作用|
|--|--|
|matplotlib|流行的数据可视化库|
|seaborn|美观的数据可视化库，基于matplotlib|

---

我们来看一些真实世界的数据集。对于每个数据集，我们会使用一些数据处理常用的方法，从原始数据中提取有意义的内容。展示的方法也适用于其它数据集。


# <center>MovieLens 1M数据集</center>

## 数据内容
MviesLens 1M数据集含有来自6000多名用户对4000部电影的100万条评分数据。它分为三个表：<br>

* 评分(ratings.dat)<br>
* 用户信息(users.dat)<br>
* 电影信息(movies.dat)


## 目标
使用pandas对json格式的文本进行<font color=blue>数据处理和分析</font>(统计、排序)。

1. 根据性别和年龄计算某部电影的平均得分
2. 找出观众分歧最大的电影

首先查看数据集

In [None]:
!head -n 5 ../datasets/movielens/users.dat
# UserID::Gender::Age::Occupation::Zip-code

In [None]:
!head -n 5 ../datasets/movielens/ratings.dat
# UserID::MovieID::Rating::Timestamp

In [None]:
!head -n 5 ../datasets/movielens/movies.dat
# MovieID::Title::Genres

### 0.合并数据集

In [None]:
# 设置工作路径
rating_path = '../datasets/movielens/ratings.dat'
user_path = '../datasets/movielens/users.dat'
movie_path = '../datasets/movielens/movies.dat'

In [None]:
import pandas as pd

# 用户信息表中的内容 
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_csv(user_path, sep='::', header=None, names=unames, engine='python')

# 评分表中的内容
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv(rating_path, sep='::', header=None, names=rnames, engine='python')

# 电影信息表中的内容
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_csv(movie_path, sep='::', header=None, names=mnames, engine='python')

In [None]:
users[:5]

In [None]:
ratings[:5]

In [None]:
movies[:5]

In [None]:
# 使用pandas的merge函数将三张表合并到一起
data = pd.merge(pd.merge(ratings, users), movies)

In [None]:
data

In [None]:
# 查看第一个数据
data.loc[0]

### 1. 按性别计算每部电影的平均得分
即希望得到一个类似与下方内容一致的表格

|电影名称|女性平均评分|男性平均评分|
|--|--|--|
|Toy Story (1995)|4.5|4.2|
|Jumanji (1995)|4.6|4.3|
|Grumpier Old Men (1995)|4.7|4.4|

①对评分数据进行<font color=blue>聚合</font>操作

In [None]:
# 指定index作为纵轴索引、columns作为横轴索引来观察指定的values值，另外aggfunc指定的是均值函数（mean）
mean_ratings = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')
mean_ratings[:5]

②<font color=blue>过滤</font>掉评论较少(小于250)的数据

In [None]:
# 对title分组
ratings_by_title = data.groupby('title').size()
ratings_by_title[:10]

In [None]:
active_titles = ratings_by_title.index[ratings_by_title >= 250]
mean_ratings = mean_ratings.loc[active_titles]
mean_ratings

③<font color=blue>排序</font>

In [None]:
# 女性观众喜欢的电影，对F列降序排列
top_female_ratings = mean_ratings.sort_values(by='F',  ascending=False)
top_female_ratings[:10]

### 2.计算评分分歧

#### 方案一：找出女性和男性观众分歧最大的电影

计算女性观众和男性观众的平均分之差，并对其排序

In [None]:
mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']
sorted_by_diff = mean_ratings.sort_values(by='diff')
sorted_by_diff[:5]

In [None]:
# 先逆转，再取前15行
sorted_by_diff[::-1][:5]

#### 方案二：只找出分歧最大的电影
不考虑性别因素，只考虑得分数据的方差或者标准差


In [None]:
# 计算数据的方差
rating_std_by_title = data.groupby('title')['rating'].std()
# 根据active_titles进行过滤
rating_std_by_title = rating_std_by_title.loc[active_titles]
rating_std_by_title.sort_values(ascending=False)[:5]

---
# <center>names 数据集</center>

# 数据内容
一份从1880年到2010年的全美国婴儿名字频率数据。

对于 1879 年之后的每一年 YYYY，创建了一个以逗号为分隔符的文件，名为yobYYYY.txt。 
各个年度文件中的每条记录的格式为
```
name,sex,number
```
其中姓名是 2 到 15 个字符，性别是 M（男）或 F（女），次数是对应姓名出现的次数。 每个文件首先按性别排序，然后按出现次数降序排序。

为了保护隐私，这些文件中仅含有当年出现超过5次的名字。

# 目标

* 计算某个名字的相对排名
* 计算指定名字的年度比例
* 评估命名多样性的增长

首先查看数据集

In [None]:
!head -n 5 ../datasets/babynames/yob1880.txt

先统计单个年份的信息

In [None]:
import pandas as pd
names1880 = pd.read_csv('../datasets/babynames/yob1880.txt', names=['name', 'sex', 'births'])
names1880

In [None]:
names1880.groupby('sex').births.sum()

In [None]:
# 导入必要的第三方库
from __future__ import division
from numpy.random import randn
import numpy as np
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(12, 5))
np.set_printoptions(precision=4)

### 0.合并数据集
由于整个数据集是按照年度被分隔成了多个文件，所以第一件事情就是要将所有的数据都组装到一个DataFrame里面，并加上一个year字段。

In [None]:
# 2010是目前最后一个有效统计年度
years = range(1880, 2011)

pieces = []
columns = ['name', 'sex', 'births']

# 循环读取数据
for year in years:
    path = '../datasets/babynames/yob{y}.txt'.format(y=year)
    frame = pd.read_csv(path, names=columns)
    
    # 添加一个year字段
    frame['year'] = year
    pieces.append(frame)
    
# 将所有数据整合到单个DataFrame中
names = pd.concat(pieces, ignore_index=True)
names

### 按年份统计出现次数
思路：利用groupby或pivot_table在year和sex级别上对其进行聚合

In [None]:
total_births = names.pivot_table('births', index='year', columns='sex', aggfunc=sum)
total_births.tail()

In [None]:
total_births.plot(title='Total birth by sex and year')
plt.show()

### 统计不同年份、不同性别分组下，各名字出现次数所占分组人数比例
思路：插入一个prop列，用于存放指定名字的婴儿数相对总出生数的比例

In [None]:
def add_prop(group):
    # 整数除法会向下取整
    births = group.births.astype(float)
    
    group['prop'] = births / births.sum()
    return group
names = names.groupby(['year', 'sex']).apply(add_prop)

In [None]:
names.head()

###  排名：给出不同年份、不同性别分组下，各名字在分组中出现频率的排名

思路：现将数据按年份、性别分组，然后对分组数据的frequency列调用rank()方法降序得到排名，并将排名赋到新增的“ranked”列

In [None]:
baby_names = names
baby_names["ranked"]=baby_names.groupby(["year","sex"])["births"].rank(ascending=False)
baby_names.head()

### 缩小数据集
为了便于实现更进一步的分析，取出该数据的子集：每对sex/year组合的前1000个名字

In [None]:
def get_top1000(group):
    return group.sort_values(by='births', ascending=False)[:1000]

grouped = names.groupby(['year', 'sex'])
top1000 = grouped.apply(get_top1000)
# 添加索引
top1000.index = np.arange(len(top1000))

接下来的数据分析工作就针对这个top1000数据集

### 计算指定名字的年度比例

In [None]:
boys = top1000[top1000.sex == 'M']
girls = top1000[top1000.sex == 'F']
# 生成一张按year和name统计的总出生数透视图
total_births = top1000.pivot_table('births', index='year', columns='name', aggfunc=sum)

In [None]:
total_births

In [None]:
subset = total_births[['John', 'Harry', 'Mary', 'Marilyn']]
subset.plot(subplots=True, figsize=(12, 10), grid=False, title='Number of births per year')
plt.show()

### 评估命名多样性的增长
方案一：计算最流行的1000个名字在Top1000数据集中所占的比例。

In [None]:
table = top1000.pivot_table('prop', index='year',
                            columns='sex', aggfunc=sum)
table.plot(title='Sum of table1000.prop by year and sex',
           yticks=np.linspace(0, 1.2, 13), xticks=range(1880, 2020, 10))
plt.show()

从图中可以看出前1000项的比例确实降低了。

方案二：计算占出生人数前50%的不同名字的数量。

面临的第一个问题就是，在Top1000数据集中，各个年份里面多少个名字的人数加起来才够50%。
思路：先计算prop(比例)的累计和(cumsum)，然后再通过searchsorted方法找出0.5应该插入在哪个位置才能保证不会破坏顺序。

对整个Top1000数据集直接进行操作，计算量太大了。可以先取某一个年份进行计算，例如对2010年的男孩的名字。

In [None]:
df = boys[boys.year == 2010]
df

In [None]:
# 排序
prop_cumsum = df.sort_values(by='prop', ascending=False).prop.cumsum()
prop_cumsum[:10]

In [None]:
prop_cumsum.values.searchsorted(0.5)

这里计算出的116称为<font color=blue>中位数</font>，其含义是表示，2010年男孩子姓名出现次数按照降序排序的第117(<font color=red>因为数组索引从0开始</font>)位之后的，属于前50%。

现在可以对Top1000数据集进行计算了。
思路：按照year和sex这两个字段进行groupby处理，然后用一个函数计算各分组的中位数。

In [None]:
def get_quantile_count(group, q=0.5):
    group = group.sort_values(by='prop', ascending=False)
    return group.prop.cumsum().values.searchsorted(q) + 1

diversity = top1000.groupby(['year', 'sex']).apply(get_quantile_count)
diversity = diversity.unstack('sex')

diversity.head()

In [None]:
diversity.plot(title="Number of popular names in top 50%")
plt.show()

从图中可以看出，女孩名字多样性总是比男孩子高，而且还在变得越来越高。