# 前言

一般来说，数据科学家需要掌握如下技能：


* **基础工具：**例如Python、R或SQL，选择其中一个熟练运用即可。
* **统计学基础：**理解平均值、中值、标准差等概念，懂一点统计学会更容易上手Python。
* **数据预处理：**对杂乱无章的数据进行清洗和整理，以便进行下一步的分析。
* **数据可视化：**经常用到的可视化分析库有matplotlib和seaborn。
* **机器学习：**了解机器学习的基础知识，并掌握如何用python实现。

机器学习教程请戳：https://www.kesci.com/home/project/5c483e3489f4aa002b85a3d5
# 目录
* [1.Python基础](#Python基础)
	* [1.1Matplotlib](#Matplotlib)
	* [1.2字典](#字典)
	* [1.3Pandas](#Pandas)
	* [1.4比较运算、逻辑运算和过滤](#比较运算、逻辑运算和过滤)
	* [1.5while和for循环](#while和for循环)
* [2.Python进阶](#Python进阶)
	* [2.1函数](#函数)
	* [2.2作用域](#作用域)
	* [2.3嵌套函数](#嵌套函数)
	* [2.4默认参数、可变参数和关键字参数](#默认参数、可变参数和关键字参数)
	* [2.5lambda函数](#lambda函数)
	* [2.6迭代器](#迭代器)
	* [2.7zip()函数](#zip（）函数)
	* [2.8列表推导式](#列表推导式)
* [3.数据清洗](#数据清洗)
	* [3.1检查数据](#检查数据)
	* [3.2EDA：探索性数据分析](#EDA：探索性数据分析)
	* [3.3箱线图](#箱线图)
	* [3.4重塑数据](#重塑数据)
	* [3.5数据透视表](#数据透视表)
	* [3.6数据连接](#数据连接)
	* [3.7数据类型转换](#数据类型转换)
	* [3.8数据缺失及断言](#数据缺失及断言)
* [4.Pandas进阶](#Pandas进阶)
	* [4.1内容回顾](#内容回顾)
	* [4.2构建dataframe](#构建dataframe)
	* [4.3可视化EDA](#可视化EDA)
	* [4.4describle（）函数](#describle（）函数)
	* [4.5时间序列处理](#时间序列处理)
	* [4.6时间序列重采样](#时间序列重采样)
* [5.用Pandas操作dataframe](#用Pandas操作dataframe)
	* [5.1数据索引](#数据索引)
	* [5.2数据切片](#数据切片)
	* [5.3数据过滤](#数据过滤)
	* [5.4数据转换](#数据转换)
	* [5.5修改索引](#修改索引)
	* [5.6分级索引](#分级索引)
	* [5.7pivot（）函数](#pivot（）函数)
	* [5.8堆叠和非堆叠数据](#堆叠和非堆叠数据)
	* [5.9smelt（）函数](#smelt（）函数)
	* [5.10聚合groupby（）](#聚合groupby（）)

**Fork**到自己的工作区后，可以在左面的侧边栏查看目录，点击相应章节即可实现跳转。

In [1]:
#Python 3环境中安装了许多有用的分析库，在K-Lab中可以方便的调用
#例如，我们加载一下即将会用到的包 
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns  # visualization tool

  'Matplotlib is building the font cache using fc-list. '


In [1]:
#查看当前挂载的数据集目录
!ls /home/kesci/input/pokemon

ls: /home/kesci/input/pokemon: No such file or directory


在K-Lab的侧边栏中可以查看数据集，查看数据集的详细描述请点击：[口袋妖怪数据集](https://www.kesci.com/home/dataset/5a26650136ae5c1293bf241a)


![Image Name](https://cdn.kesci.com/upload/image/pivwmqw3bf.png?imageView2/0/w/960/h/960)



 # Python基础
### Matplotlib
Matplotlib是一个帮助我们绘制数据的python库。通过它，你可以画出线图、散点图、等高线图; 条形图、直方图、3D 图形甚至是图形动画等等。

* 当横轴为时间时，使用线图
* 当两个变量存在相关性时，使用散点图
* 当想要观察数值数据的分布时，使用直方图
* 我们可以在图表中定义以下属性：颜色、标签、线宽、标题、不透明度、网格、图形大小、坐标轴刻度、线型等

更详细的讲解可以参考专栏：[Matplotlib绘图详解](https://www.kesci.com/home/column/5b87a78131902f000f668549)

In [3]:
#使用pandas从数据集中的csv文件写入数据
data = pd.read_csv('/home/kesci/input/pokemon/Pokemon.csv')

In [4]:
# 线图
# 绘制两条曲线，Speed和Defense；分别定义颜色，线宽，不透明度，网格，线型等属性
data.Speed.plot(kind = 'line', color = 'blue',label = 'Speed',linewidth=1,alpha = 0.5,grid = True,linestyle = ':')
data.Defense.plot(color = 'red',label = 'Defense',linewidth=1, alpha = 0.5,grid = True,linestyle = '-')
plt.legend(loc='upper right')     # 在图像中显示标签
plt.xlabel('x axis')              # 定义X轴名称
plt.ylabel('y axis')              # 定义y轴名称
plt.title('Line Plot')            # 定义图像名称
plt.show()                        # 显示图像

In [5]:
# 散点图
# x = attack, y = defense
data.plot(kind='scatter', x='Attack', y='Defense',alpha = 0.5,color = 'red')
plt.xlabel('Attack')              
plt.ylabel('Defence')
plt.title('Attack Defense Scatter Plot')           

Text(0.5, 1.0, 'Attack Defense Scatter Plot')

In [6]:
# 直方图
# bins = 直方图中竖条区域的个数，这里我们设置为10个
data.Speed.plot(kind = 'hist',bins = 10,figsize = (6,5))   
plt.show()

In [7]:
# clf()：清除当前 figure 的所有axes
data.Speed.plot(kind = 'hist',bins = 50)
plt.clf()
# 由于使用了clf()，我们看不到绘制的图像

<Figure size 432x288 with 0 Axes>

### 字典

**字典（dictionary）是另一种可变容器模型，且可存储任意类型对象。**

字典的每个键（key）值 （value） 对用冒号 “ : ”分割，每个键值对之间用逗号 “ , ” 分割，整个字典包括在花括号 “ {} ” 中 ,格式如下所示：

例:
dictionary = {'China' : 'Shanghai'，'England':'London'}
其中的China、England为“键”；Shanghai、London为“值”

是不是很简单呢~

让我们通过下面的练习掌握字典的使用。

In [8]:
# 创建一个字典
dictionary = {'spain' : 'madrid','usa' : 'vegas'}
# 打印字典中的keys和values
print(dictionary.keys())
print(dictionary.values())

dict_keys(['usa', 'spain'])
dict_values(['vegas', 'madrid'])


In [9]:
# 键必须是不可变的对象，如字符串、布尔值、浮点数、整数、元组
# 列表是可变的对象，不能作为键
# 键是唯一的，创建时如果同一个键被赋值两次，后一个值会被记住
# 值不需要唯一
dictionary['spain'] = "barcelona"   # 将‘spain’对应的值从‘madrid’替换为‘barcelona’
print(dictionary)
dictionary['france'] = "paris"       # 增加新的键/值对
print(dictionary)
del dictionary['spain']              # 删除键是‘spain’的条目
print(dictionary)
print('france' in dictionary)        # 查看‘spain’是否在字典里
dictionary.clear()                   # 清空字典所有条目
print(dictionary)

{'usa': 'vegas', 'spain': 'barcelona'}
{'usa': 'vegas', 'spain': 'barcelona', 'france': 'paris'}
{'usa': 'vegas', 'france': 'paris'}
True
{}


In [10]:
# 删除字典
# 为了正常运行后面的cell，这一句写成了注释，大家可以自行run一下结果
# del dictionary            
print(dictionary) 
# 这时引发一个异常，因为用del后字典不再存在： 

{}


### Pandas简介
pandas 是基于 NumPy 的一个 Python 数据分析包，主要目的是为了数据分析。它提供了大量高级的数据结构和对数据处理的方法。

pandas 有两个主要的数据结构：Series 和 DataFrame。
* Series:一个一维数组对象 ，类似于 NumPy 的一维 array。它除了包含一组数据还包含一组索引，所以可以把它理解为一组带索引的数组。
* DataFrame:DataFrame 是一个表格型的数据结构。它提供有序的列和不同类型的列值。

In [11]:
data = pd.read_csv('/home/kesci/input/pokemon/Pokemon.csv')

In [12]:
series = data['Defense']        # data['Defense'] = series
# 看一下series的类型
print(type(series))
data_frame = data[['Defense']]  # data[['Defense']] = dataframe
print(type(data_frame))
# 大家可以分别运行下面语句，直观的看一下两种数据格式的差异
# series
# data_frame

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


### 比较运算、逻辑运算和过滤
在我们继续学习Pandas前，我们需要了解以下三个概念：
* 比较运算符: ==, <, >, <= 
* 逻辑运算符: and, or ,not 
* 利用比较/逻辑运算符过滤数据

In [13]:
# 比较运算符
print(3 > 2)
print(3!=2)
# 逻辑运算符
print(True and False)
print(True or False)

True
True
False
True


In [14]:
# 1 - 过滤数据
x = data['Defense']>200     # 我们看到防御值大于200的口袋妖怪有3只
data[x]

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
224,208,SteelixMega Steelix,Steel,Ground,610,75,125,230,55,95,30,2,False
230,213,Shuckle,Bug,Rock,505,20,10,230,10,230,5,2,False
333,306,AggronMega Aggron,Steel,,630,70,140,230,60,80,50,3,False


In [15]:
# 2 - 使用逻辑运算符‘and’过滤数据
# 可以看到，防御值大于200且攻击值大于100的口袋妖怪仅有2只
data[np.logical_and(data['Defense']>200, data['Attack']>100 )]

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
224,208,SteelixMega Steelix,Steel,Ground,610,75,125,230,55,95,30,2,False
333,306,AggronMega Aggron,Steel,,630,70,140,230,60,80,50,3,False


In [16]:
# 同上，这次我们使用 '&' 达到相同的效果
data[(data['Defense']>200) & (data['Attack']>100)]

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
224,208,SteelixMega Steelix,Steel,Ground,610,75,125,230,55,95,30,2,False
333,306,AggronMega Aggron,Steel,,630,70,140,230,60,80,50,3,False


### while和for循环
接下来，我们学习基础的while和for循环

In [17]:
# 如果条件(i不等于5)为真，则保持循环；直到条件为假，跳出循环，执行下一行语句
i = 0
while i != 5 :
    print('i is: ',i)
    i +=1 
print(i,' is equal to 5')

i is:  0
i is:  1
i is:  2
i is:  3
i is:  4
5  is equal to 5


In [18]:
# 如果条件(i不等于5)为真，则保持循环
lis = [1,2,3,4,5]
for i in lis:
    print('i is: ',i)
print('')

# 遍历列表中的索引（index）和值（value）
# index : value = 0:1, 1:2, 2:3, 3:4, 4:5
for index, value in enumerate(lis):
    print(index," : ",value)
print('')   

# 对于字典，我们可以使用for循环遍历字典中的所有键/值对
dictionary = {'spain':'madrid','france':'paris'}
for key,value in dictionary.items():
    print(key," : ",value)
print('')

# 在pandas里，我们可以使用for循环显示索引和值
for index,value in data[['Attack']][0:1].iterrows():
    print(index," : ",value)

i is:  1
i is:  2
i is:  3
i is:  4
i is:  5

0  :  1
1  :  2
2  :  3
3  :  4
4  :  5

spain  :  madrid
france  :  paris

0  :  Attack    49
Name: 0, dtype: int64


**小结：**

本章我们学习了以下内容：
* 如何从CSV文件中写入数据
* 绘制线图、散点图、直方图
* 字典的基础功能
* pandas的基础概念和过滤功能
* while和for循环

[返回目录](#目录)

# Python进阶


### 函数

你需要掌握：
* 文档字符串Docstrings: 通俗的讲，docstring就是给代码加注释

例如，在函数里面添加注释内容，函数下方三个双引号里面就可以写该函数的注释文档了：
```
def f():
"""这个函数的功能是打印hello，world！"""
print('hello,world')
```


* 元组tuble: 

Python的元组与列表类似，不同之处在于元组的元素不能修改。

元组使用小括号，列表使用方括号。

元组创建很简单，只需要在括号中添加元素，并使用逗号隔开即可。

例如：
tup1=('apple','pear',12,30)
tup2=(1,2,3,4,5,6,7,8)
tup3=("a"，"b"，"c")

In [19]:
# 让我们用一个小案例来实践一下
# 定义一个函数
def tuble_ex():
# 为这个函数添加注释
    """ return defined t tuble"""
    t = (1,2,3)
    return t
# 将tuble分解为a b c三个变量
a,b,c = tuble_ex()
print(a,b,c)

1 2 3


In [20]:
# print一下注释内容
print(tuble_ex.__doc__)

 return defined t tuble


In [21]:
# 我们还可使用help()来调用注释内容
help(tuble_ex)

Help on function tuble_ex in module __main__:

tuble_ex()
    return defined t tuble



### 作用域

关于作用域（scope）你需要掌握：
* L：local，局部作用域，即函数中定义的变量； 
* E：enclosing，嵌套的父级函数的局部作用域，即包含此函数的上级函数的局部作用域，但不是全局的； 
* G：global，全局变量，就是模块级别定义的变量； 
* B：built-in，系统固定模块里面的变量，比如int, bytearray等。 

搜索变量的优先级顺序依次是：局部作用域>外层作用域>当前模块中的全局>python内置作用域，也就是LEGB。

接下来，让我们做一些基础练习

In [22]:
# 猜一猜会print什么出来
x = 2         # 全局的
def f():
    x = 3     # 局部的
    return x
print(x)      # 结果为2
print(f())    # 结果为3

2
3


In [23]:
# 看一下没有local scope的情况
x = 5
def f():
    y = 2*x        # 没有local scope x
    return y
print(f())         # 使用的是global scope x
# 首先对局部作用域进行搜索，然后对全局作用域进行搜索，如果其中两个作用域不能找到，最后会在作用域搜索内建。

10


### 嵌套函数
嵌套函数（Nested function）是在另一个函数（即：封闭函数）中定义的函数

嵌套函数的访问顺序遵循上一节提到的LEGB原则

In [24]:
# 嵌套函数示例
def square():
    """ return square of value """
    def add():
        """ add two local variable """
        x = 2
        y = 3
        z = x + y
        return z
    return add()**2
print(square()) 

25


### 默认参数、可变参数和关键字参数
默认参数（Default argument）示例: 
```
def f(a,b=1):
""" b = 1 is default argument"""
```

可变参数（Flexible argument）示例: 
```
def f(*args):
""" *args can be one or more"""
```

关键字参数示例：
```
def f(** kwargs)
""" **kwargs is a dictionary"""
```


In [25]:
# 默认参数
# 必选参数在前，默认参数在后，否则python解释器会报错
# 默认参数一定要指向不变对象 
def f(a, b = 1, c = 2):
    y = a + b + c
    return y
print(f(5))
# 当我们想改变默认参数时
print(f(5,4,3))

8
12


In [26]:
# 可变参数 *args
def f(*args):
    for i in args:
        print(i)
f(1)
print("")
f(1,2,3,4)

1

1
2
3
4


In [27]:
# 关键字参数 **kwargs 
def f(**kwargs):
    """ print key and value of dictionary"""
    for key, value in kwargs.items():               # 如果不理解这个部分，可以转到for循环部分并查看字典for循环
        print(key, " ", value)
f(country = 'spain', capital = 'madrid', population = 123456)

country   spain
population   123456
capital   madrid


### lambda函数

Lambda函数也叫匿名函数，允许快速定义单行函数。通常是在需要一个函数，但是又不想费神去命名一个函数的场合下使用，也就是指匿名函数。

格式：
> lambda argument_list: expression


lambda函数与def的区别：
1）def创建的方法是有名称的，而lambda没有；
2）lambda会返回一个函数对象，但这个对象不会赋给一个标志符，而def则会把函数对象赋值给一个变量（函数名）；
3）lambda只是一个表达式，而def是一个语句；
4）lambda表达式“:”后面只能有一个表达式，而def则可以有多个；
5）if、for、print等语句不能用于lambda中；
6）lambda一般用于定义简单的函数；
7）lambda函数不能共享给别的程序调用；

In [28]:
# lambda函数
# 单个参数的
square = lambda x: x**2     # where x is name of argument
print(square(4))

# 多个参数的
tot = lambda x,y,z: x+y+z   # where x,y,z are names of arguments
print(tot(1,2,3))

# 再看一个例子
number_list = [1,2,3]
# map(func,seq):对列表中的所有项应用函数
y = map(lambda x:x**2,number_list)
print(list(y))

16
6
[1, 4, 9]


### 迭代器
* 容器(container)：容器是一系列元素的集合，str、list、set、dict、file、sockets对象都可以看作是容器，容器都可以被迭代（用在for，while等语句中），因此他们被称为可迭代对象。
* 可迭代对象（iterable）：可迭代对象实现了__iter（）__方法，该方法返回一个迭代器对象。
* 迭代器（iterator）: 迭代器持有一个内部状态的字段，用于记录下次迭代返回值，它实现了__next（）__和__iter（）__方法，迭代器不会一次性把所有元素加载到内存，而是需要的时候才生成返回结果。


In [29]:
# 迭代器示例
name = "ronaldo"
it = iter(name)
print(next(it))    # 打印容器中的下一个值
print(*it)         # 打印容器中的剩余值

r
o n a l d o


### zip（）函数
* 定义：zip()函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的对象，这样做的好处是节约了不少内存。
如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同。
* 语法：zip([interable,...])
参数：iterable为一个或多个迭代器
返回值：返回的是一个对象，可以使用list()转换来输出列表

In [30]:
# zip()示例
list1 = [1,2,3,4]
list2 = [5,6,7,8]
z = zip(list1,list2)  # 返回一个对象
print(z)
z_list = list(z)      # list():转换为列表
print(z_list)

<zip object at 0x7ff21a1ed6c8>
[(1, 5), (2, 6), (3, 7), (4, 8)]


In [31]:
# 与 zip 相反，zip(*) 可理解为解压，返回二维矩阵式
un_zip = zip(*z_list)
un_list1,un_list2 = list(un_zip)     # un_zip 返回一个 tuble
print(un_list1)
print(un_list2)
print(type(un_list2))

(1, 2, 3, 4)
(5, 6, 7, 8)
<class 'tuple'>


### 列表推导式
**列表推导式（list comprehension）是这篇notebook中最重要的部份之一，在数据分析中经常用到。**

**列表推导式或者说列表解析式是一种非常简洁的创建列表的方式。**很多时候我们需要创建一个满足特定要求的新列表，不得不用for循环来创建，而用列表推导式来表达只需要一行代码即可。列表推导式另一个优点是相比于for循环更高效，因为列表推导式在执行时调用的是Python的底层C代码，而for循环则是用Python代码来执行。

语法：[i+1 **for** i in range(10) **if** i%2==0]
* for i in range(10)：for循环初步定义列表
* if i%2 == 0：if语句过滤初步所定义的列表
* i+1：定义最终元素的表达式

In [32]:
# 列表推导式示例
num1 = [1,2,3]
num2 = [i + 1 for i in num1 ]
print(num2)

[2, 3, 4]


In [33]:
# 使用if语句进行过滤
num1 = [5,10,15]
num2 = [i**2 if i == 10 else i-5 if i < 7 else i+5 for i in num1]
print(num2)

[0, 100, 20]


In [34]:
# 使用口袋妖怪数据集，进一步练习列表推导式
# 将口袋妖怪按速度分为两类，大于平均速度的值归为high speed，小于平均速度的值归为low speed
threshold = sum(data.Speed)/len(data.Speed)    #threshold=平均速度
data["speed_level"] = ["high" if i > threshold else "low" for i in data.Speed]
data.loc[:8,["speed_level","Speed"]]          #后面会讲到loc

Unnamed: 0,speed_level,Speed
0,low,45
1,low,60
2,high,80
3,high,80
4,low,65
5,high,80
6,high,100
7,high,100
8,high,100


**小结：**

这一章我们学习了如下内容：
* 定义函数及文档字符串
* 作用域
* 嵌套函数
* 三种参数
* lambda函数
* 迭代器
* zip()和zip(*)
* 列表推导式

[返回目录](#目录)

# 数据清洗


### 检查数据
在探索数据之前，我们需要对数据进行检查和清洗。

Unclean data:
* 列名不一致，如大小写字母或单词之间的空格
* 数据缺失
* 语言不同

我们经常使用head, tail, columns, shape 和 info 等函数来检查数据。

In [35]:
data = pd.read_csv('/home/kesci/input/pokemon/Pokemon.csv')
# DataFrame开头的5行记录
data.head(5)  

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


In [36]:
# DataFrame结尾的3行记录
data.tail(3)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
797,720,HoopaHoopa Confined,Psychic,Ghost,600,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True
799,721,Volcanion,Fire,Water,600,80,110,120,130,90,70,6,True


In [37]:
# 查看列名
data.columns

Index(['#', 'Name', 'Type 1', 'Type 2', 'Total', 'HP', 'Attack', 'Defense',
       'Sp. Atk', 'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')

In [38]:
# 查看行数，列数
data.shape

(800, 13)

In [39]:
# 展示Index,Datatype,Memory相关信息
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 13 columns):
#             800 non-null int64
Name          800 non-null object
Type 1        800 non-null object
Type 2        414 non-null object
Total         800 non-null int64
HP            800 non-null int64
Attack        800 non-null int64
Defense       800 non-null int64
Sp. Atk       800 non-null int64
Sp. Def       800 non-null int64
Speed         800 non-null int64
Generation    800 non-null int64
Legendary     800 non-null bool
dtypes: bool(1), int64(9), object(3)
memory usage: 75.9+ KB


### EDA：探索性数据分析
**value_counts():** pandas中的一个函数，可以对Series里面的每个值进行计数并且排序。 

**离群值（outliers）:** 也称逸出值，是指在数据中有一个或几个数值与其他数值相比差异较大。
* 小于 Q1 - 1.5(Q3-Q1) ，或大于 Q3 + 1.5(Q3-Q1)的值称为outliers。
* TQR代表四分位数间距，IQR=(Q3-Q1)

我们使用**describe()**函数总结数据集分布的中心趋势，常用的算术运算指标如下：
* count: 计算每个条目出现的次数
* mean: 平均值
* std: 标准差
* min: 最小值
* 25%: 第一四分位数
* 50%: 中位数
* 75%: 第三四分位数
* max: 最大值

什么是**四分位数**（quantile）?
四分位数也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。
四分位数是通过3个点将全部数据等分为4部分，其中每部分包含25%的数据。很显然，中间的四分位数就是中位数，因此通常所说的四分位数是指处在25%位置上的数值（称为第一四分位数）和处在75%位置上的数值（称为第三四分位数）。

示例：
1,4,5,6,8,9,11,12,13,14,15,16,17
* 第二四分位数（中位数）Q2是序列中间的数字，即11；
* 第一四分位数Q1，是最小数字和中位数之间的中位数，也就是1到11之间的中位数，即6；
* 第三分位数Q3，是中位数和最大数之间的中位数，也就是11和17之间的中位数，即14。

In [40]:
# 让我们看看不同类型口袋妖怪出现的频率
print(data['Type 1'].value_counts(dropna =False))  # 此时为降序排列，升序排列使用Ture
# 从下面可以看到，水精灵有112个

Water       112
Normal       98
Grass        70
Bug          69
Psychic      57
Fire         52
Rock         44
Electric     44
Ghost        32
Dragon       32
Ground       32
Dark         31
Poison       28
Steel        27
Fighting     27
Ice          24
Fairy        17
Flying        4
Name: Type 1, dtype: int64


In [41]:
# 在下面的例子里我们可以看到HP的最大值为255，Defense的最小值为5
data.describe()   # 其中NaN值被忽略掉

Unnamed: 0,#,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,362.81375,435.1025,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,208.343798,119.96304,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,180.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,184.75,330.0,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,364.5,450.0,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,539.25,515.0,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,721.0,780.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


### 箱线图
箱线图（box plot）: 可视化基本的统计数据，如离群值、最小/最大值，四分位值等
* 更多详细的讲解请点击[这个链接](https://www.kesci.com/home/project/59f6ec6dc5f3f511952c228e)

In [42]:
# 动手实践一下
data.boxplot(column=['Attack','Defense'])
plt.show()

In [43]:
# 加入分类数据列‘Legendary’
data.boxplot(column='Attack',by='Legendary')
plt.show()

### 重塑数据
我们使用melt()函数来转换数据的行列。

参数：
* pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)
* frame:要处理的数据集。
* id_vars:不需要被转换的列名。
* value_vars:需要转换的列名，如果剩下的列全部都要转换，就不用写了。
* var_name和value_name是自定义设置对应的列名。

我们直接看下面的示例来理解melt()。

In [44]:
# 从pokemon数据中创建一组新的数据
data_new = data[10:15]    # 取10-14行共5行数据来构建新数据表
data_new

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
10,8,Wartortle,Water,,405,59,63,80,65,80,58,1,False
11,9,Blastoise,Water,,530,79,83,100,85,105,78,1,False
12,9,BlastoiseMega Blastoise,Water,,630,79,103,120,135,115,78,1,False
13,10,Caterpie,Bug,,195,45,30,35,20,20,45,1,False
14,11,Metapod,Bug,,205,50,20,55,25,25,30,1,False


In [45]:
# 使用一下melt()函数
# frame：要处理的数据集
# id_vars：不需要被转换的列名
# value_vars ：需要转换的列名
melted = pd.melt(frame=data_new,id_vars = 'Name', value_vars= ['Attack','Defense'])
melted

Unnamed: 0,Name,variable,value
0,Wartortle,Attack,63
1,Blastoise,Attack,83
2,BlastoiseMega Blastoise,Attack,103
3,Caterpie,Attack,30
4,Metapod,Attack,20
5,Wartortle,Defense,80
6,Blastoise,Defense,100
7,BlastoiseMega Blastoise,Defense,120
8,Caterpie,Defense,35
9,Metapod,Defense,55


### 数据透视表
pivot()函数根据列值重塑数据，生成“数据透视表”。

参数：
* DataFrame.pivot_table(index=None, columns=None, values=None)
* index: 重塑的新表的索引名称是什么
* columns：重塑的新表的列名称是什么
* values: 生成的新列中的值是什么

看起来可能有点迷惑，我们直接看下面的例子

In [46]:
# 我希望能根据上面的'melted'数据表生成一张新表
# 新表可以显示口袋妖怪的名字，及对应的防御值和攻击值

# 设置index为'Name'
# 设置columns为'variable'
# 设置values为value

# 看一看新的数据表是否按照我们的想法显示
melted.pivot(index = 'Name', columns = 'variable',values='value')

variable,Attack,Defense
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Blastoise,83,100
BlastoiseMega Blastoise,103,120
Caterpie,30,35
Metapod,20,55
Wartortle,63,80


### 数据连接
接下来我们学习如何将两个dataframe连接在一起。

In [47]:
# 首先生成两个新的dataframe
data1 = data.head(3)
data2= data.tail(3)
# 使用comcat()函数将两个表拼接在一起
conc_data_row = pd.concat([data1,data2],axis =0,ignore_index =True) # axis = 0 : 行拼接，即纵向拼接
conc_data_row

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,720,HoopaHoopa Confined,Psychic,Ghost,600,80,110,60,150,130,70,6,True
4,720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True
5,721,Volcanion,Fire,Water,600,80,110,120,130,90,70,6,True


In [48]:
data1 = data['Attack'].head(3)
data2= data['Defense'].head(3)
conc_data_col = pd.concat([data1,data2],axis =1) # axis = 1 : 列拼接，即横向拼接
conc_data_col

Unnamed: 0,Attack,Defense
0,49,49
1,62,63
2,82,83


### 数据类型转换
**Python3基础数据类型：**
* Number（数字）:int、float、bool、complex
* String（字符串）
* List（列表）
* Tuple（元组）
* Set（集合）
* Dictionary（字典）

不同的数据类型间可以转换，例如将字符串转换为categorical数据（分类数据），或者将整数转换为浮点数。

**统计数据类型:Numerical 与 Categorical**

* **Numerical data**：这种数据类型具有实际测量的物理意义（例如一个人的身高、体重、血压等）；或者是一个计量数字（比如一个人拥有多少股票，一只猫有多少颗牙齿等），统计学上也称其为定量数据（quantitative data）。Numerical data可分为两类：离散型数据（discrete data）和连续型数据（continuous data）。
	* **离散型**：离散数据无法测量但可以计数，具有可以列出的可能值。其可能值的列表可以是有限的，也可以是可数无穷的。例如，100次抛掷中正面的次数取值范围从0到100(有限情况)，但得到100次正面所需的抛掷次数取值范围从100(最快的情况)到无穷大(如果永远不能得到第100次正面)。它的可能值被列出为100、101、102、103、……(表示可数无穷情况)
	* **连续型**：连续数据表示测量值，它们的可能值不能计算，只能用实数轴上的间隔来描述。例如，一个油箱容量60L的汽车，在加油站购买的确切汽油量将是0L到60L之间的连续数据，用区间[0,60]表示。你可能会购买的汽油量是30L、30.4L、30.414863L，或者从0到60的任何可能的数字。因此，连续数据可以被认为是**不可数的无限的**。为了便于记录，统计人员通常会在数字中选取一个点进行四舍五入。另一个例子是，某电池的寿命可能在0小时到无限小时之间(如果它永久存在)，从技术上讲，所有可能的值都在0小时到无限小时之间。当然，你不指望电池能持续数百小时以上，但没人能给电池的续航时间设定上限。
* **Categorical data**：分类数据表示特征，如一个人的性别，婚姻状况，家乡，或他们喜欢的电影类型。分类数据也可以是数值(例如“1”表示男性，“2”表示女性)，但这些数字没有数学意义，比如你不能把它们加在一起。

In [49]:
# 查看数据类型
data.dtypes

#              int64
Name          object
Type 1        object
Type 2        object
Total          int64
HP             int64
Attack         int64
Defense        int64
Sp. Atk        int64
Sp. Def        int64
Speed          int64
Generation     int64
Legendary       bool
dtype: object

In [50]:
# 将str转换为categorical（分类数据），将int转换为float
data['Type 1'] = data['Type 1'].astype('category')
data['Speed'] = data['Speed'].astype('float')

In [51]:
# 如下所示， Type 1从类型object转换为categorical
# Speed对应的数据类型,s从int转换为float
data.dtypes

#                int64
Name            object
Type 1        category
Type 2          object
Total            int64
HP               int64
Attack           int64
Defense          int64
Sp. Atk          int64
Sp. Def          int64
Speed          float64
Generation       int64
Legendary         bool
dtype: object

### 数据缺失及断言
如果遇到缺失的数据（NaN），我们能做的事情有：
* 放着不管~
* 使用dropna()函数删除他们
* 用fillna()函数填充缺失值
* 用平均值之类的统计数据填充缺失值

assert: Python中assert用来判断语句的真假，如果为假的话将触发AssertionError错误
* 语法格式：assert expression 
```
等价于： if not expression：
            raise AssertionError
```

In [52]:
data['Type 2'].head(6)

0    Poison
1    Poison
2    Poison
3    Poison
4       NaN
5       NaN
Name: Type 2, dtype: object

In [53]:
# 看一下pokemon数据集是否存在NaN值
# 可以看到共有800个条目，但Type2有414个非空对象，即有386个空对象。
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 13 columns):
#             800 non-null int64
Name          800 non-null object
Type 1        800 non-null category
Type 2        414 non-null object
Total         800 non-null int64
HP            800 non-null int64
Attack        800 non-null int64
Defense       800 non-null int64
Sp. Atk       800 non-null int64
Sp. Def       800 non-null int64
Speed         800 non-null float64
Generation    800 non-null int64
Legendary     800 non-null bool
dtypes: bool(1), category(1), float64(1), int64(8), object(2)
memory usage: 71.2+ KB


In [54]:
# 单独将Type2提出来验证上述想法
data["Type 2"].value_counts(dropna =False)
# 正如我们所预料的，有386个NaN值

NaN         386
Flying       97
Ground       35
Poison       34
Psychic      33
Fighting     26
Grass        25
Fairy        23
Steel        22
Dark         20
Dragon       18
Ice          14
Rock         14
Water        14
Ghost        14
Fire         12
Electric      6
Normal        4
Bug           3
Name: Type 2, dtype: int64

In [55]:
# 先看一下Type2中的缺失值情况
data.head(6)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45.0,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60.0,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80.0,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80.0,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65.0,1,False
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80.0,1,False


In [56]:
# 使用dropna()删除NaN值
data1=data   # 待会我们将使用数据来填充缺失的值，所以先将它分配给data1变量
data1["Type 2"].dropna(inplace = True)
# inplace = True表示我们不将其赋值给新变量,自动分配填充缺失值
# 可以看到原来的NaN值全部被随机填充上Flying、Dragon等属性
data1.dropna().head(6)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45.0,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60.0,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80.0,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80.0,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100.0,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100.0,1,False


In [57]:
data['Type 2'].head(6)

0    Poison
1    Poison
2    Poison
3    Poison
6    Flying
7    Dragon
Name: Type 2, dtype: object

In [58]:
# 让我们看一下assert语句的用法
assert 1==1 
# 语句是真，所以什么都没有返回

In [59]:
# 为了不影响下面cell的运行，我们需要对此行进行注释
# assert 1==2   
# 去掉‘#’运行一下，会发现返回的是AssertError错误

In [60]:
# 使用notnull()函数判断数据是否缺失，返回boll型数据，这里返回的是Ture
# 使用all()函数判断notnull()返回的值是否都为True，是则返回Ture
# 使用assert断言,语句为真
assert  data1['Type 2'].notnull().all() # 因为已经删除了nan值，所以什么也不返回

In [61]:
# 使用fillna()可以填充缺失值
data["Type 2"].fillna('empty',inplace = True)

In [62]:
assert  data['Type 2'].notnull().all() # 因为无NaN值，所以没有返回值

In [63]:
# # 通过assert语句，我们可以检查很多东西。例如：
# assert data.columns[1] == 'Name'
# assert data.Speed.dtypes == np.int

**小结：**

本章学习内容如下：
* 清洗前检查数据
* 探索性数据分析
* 数据整理
* 数据旋转
* 数据连接
* 数据类型转换
* 数据缺失和断言检测

[返回目录](#目录)

# Pandas进阶


### 内容回顾
在前面的章节中我们学习了pandas的基础知识：
* single column = series
* NaN = not a number
* dataframe.values = numpy

在本章，我们将进一步学习pandas的应用

### 构建dataframe
我们可以像前面那样从csv构建dataframe，也可以从dict中创建dataframe。
* 使用zip()函数
* 添加新列
* 广播（Broadcasting）: 创建新列并为整个列赋值

In [64]:
# 从字典中构建dataframe
country = ["Spain","France"]
population = ["11","12"]
list_label = ["country","population"]
list_col = [country,population]
# zip()函数的用法在第二章第7节
zipped = list(zip(list_label,list_col))
data_dict = dict(zipped)
df = pd.DataFrame(data_dict)
df

Unnamed: 0,country,population
0,Spain,11
1,France,12


In [65]:
# 添加新列
df["capital"] = ["madrid","paris"]
df

Unnamed: 0,country,population,capital
0,Spain,11,madrid
1,France,12,paris


In [66]:
# 广播（Broadcasting）
df["income"] = 0   # broadcasting整列
df

Unnamed: 0,country,population,capital,income
0,Spain,11,madrid,0
1,France,12,paris,0


### 可视化EDA
* 绘图
* 绘制子图
* 直方图（柱状图）:
	* bins: 指定直方图条形的个数
	* range(tuble): 指定直方图数据的上下界，默认包含绘图数据的最大值和最小值
	* normed(boolean): 是否将直方图的频数转换成频率
	* cumulative(boolean): 是否需要计算累计频数或频率

In [67]:
# 绘制所有数据
data1 = data.loc[:,["Attack","Defense","Speed"]]
data1.plot()
# 三个曲线混在一张图里看起来很乱

<matplotlib.axes._subplots.AxesSubplot at 0x7ff216f7c438>

In [68]:
# 分别绘制子图
data1.plot(subplots = True)
plt.show()

In [69]:
# 绘制散点图
data1.plot(kind = "scatter",x="Attack",y = "Defense")
plt.show()

In [70]:
# 直方图  
data1.plot(kind = "hist",y = "Defense",bins = 50,range= (0,250),normed = False)
plt.show()

The 'normed' kwarg was deprecated in Matplotlib 2.1 and will be removed in 3.1. Use 'density' instead.
  alternative="'density'", removal="3.1")


In [71]:
# 将直方图的频数转换成频率
data1.plot(kind = "hist",y = "Defense",bins = 50,range= (0,250),normed = True)
plt.show()

The 'normed' kwarg was deprecated in Matplotlib 2.1 and will be removed in 3.1. Use 'density' instead.
  alternative="'density'", removal="3.1")


In [72]:
# 统计直方图
fig, axes = plt.subplots(nrows=2,ncols=1)
data1.plot(kind = "hist",y = "Defense",bins = 50,range= (0,250),normed = True,ax = axes[0])
# 累计直方图
data1.plot(kind = "hist",y = "Defense",bins = 50,range= (0,250),normed = True,ax = axes[1],cumulative = True)
plt.savefig('graph.png')
plt.show()

The 'normed' kwarg was deprecated in Matplotlib 2.1 and will be removed in 3.1. Use 'density' instead.
  alternative="'density'", removal="3.1")


### describle（）函数
前面已经解释过了，让我们回顾一下它的运算指标：
* count: 计算每个条目出现的次数
* mean: 平均值
* std: 标准差
* min: 最小值
* 25%: 第一四分位数
* 50%: 中位数
* 75%: 第三四分位数
* max: 最大值

In [73]:
data.describe()

Unnamed: 0,#,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,362.81375,435.1025,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,208.343798,119.96304,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,180.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,184.75,330.0,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,364.5,450.0,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,539.25,515.0,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,721.0,780.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


### 时间序列处理
* datetime = object
* parse_dates(boolean): 将日期转换为 ISO8601 (yyyy-mm-dd hh:mm:ss ) 格式

In [74]:
time_list = ["1992-03-08","1992-04-12"]
print(type(time_list[1])) # 此时日期是str类型
# 我们希望能将它变为datatime类型
datetime_object = pd.to_datetime(time_list)
print(type(datetime_object))

<class 'str'>
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [75]:
# 调用filterwarnings()关闭警告消息
import warnings
warnings.filterwarnings("ignore")
# 取pokemon数据的前5行进行练习
data2 = data.head()
date_list = ["1992-01-10","1992-02-10","1992-03-10","1993-03-15","1993-03-16"]
# 转换为datetime类型
datetime_object = pd.to_datetime(date_list)
data2["date"] = datetime_object
# 设置日期作为索引
data2= data2.set_index("date")
data2 

Unnamed: 0_level_0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1992-01-10,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45.0,1,False
1992-02-10,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60.0,1,False
1992-03-10,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80.0,1,False
1993-03-15,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80.0,1,False
1993-03-16,4,Charmander,Fire,,309,39,52,43,60,50,65.0,1,False


In [76]:
# 现在可以根据日期索引筛选数据
print(data2.loc["1993-03-16"])
print(data2.loc["1992-03-10":"1993-03-16"])

#                      4
Name          Charmander
Type 1              Fire
Type 2               NaN
Total                309
HP                    39
Attack                52
Defense               43
Sp. Atk               60
Sp. Def               50
Speed                 65
Generation             1
Legendary          False
Name: 1993-03-16 00:00:00, dtype: object
            #                   Name Type 1  Type 2  Total  HP  Attack  \
date                                                                     
1992-03-10  3               Venusaur  Grass  Poison    525  80      82   
1993-03-15  3  VenusaurMega Venusaur  Grass  Poison    625  80     100   
1993-03-16  4             Charmander   Fire     NaN    309  39      52   

            Defense  Sp. Atk  Sp. Def  Speed  Generation  Legendary  
date                                                                 
1992-03-10       83      100      100   80.0           1      False  
1993-03-15      123      122      120   80.0         

### 时间序列重采样
Pandas提供了便捷的方式对时间序列进行重采样（resampling），根据时间粒度的变大或者变小分为降采样和升采样：
* 降采样（Downsampling）: 时间粒度变大。例如，原来是按天统计的数据，现在变成按周统计。
* 升采样（Upsampling）: 时间粒度变小。例如，原来是按周统计的数据，现在变成按天统计。

插值(Interpolate): 根据“linear”、“time”或“index”等不同方法插值。
* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.interpolate.html

In [77]:
# 继续使用在前一部分中创建的data，先回顾一下data2长什么样
data2.head(100)

Unnamed: 0_level_0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1992-01-10,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45.0,1,False
1992-02-10,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60.0,1,False
1992-03-10,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80.0,1,False
1993-03-15,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80.0,1,False
1993-03-16,4,Charmander,Fire,,309,39,52,43,60,50,65.0,1,False


In [78]:
# 按年进行重采样
data2.resample("Y").mean()

Unnamed: 0_level_0,#,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1992-12-31,2.0,416.0,61.666667,64.333333,65.0,81.666667,81.666667,61.666667,1.0,False
1993-12-31,3.5,467.0,59.5,76.0,83.0,91.0,85.0,72.5,1.0,False


In [79]:
# 按月进行重采样
data2.resample("M").mean()
# 可以看到有很多NaN值，因为data2中不包括所有月份

Unnamed: 0_level_0,#,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1992-01-31,1.0,318.0,45.0,49.0,49.0,65.0,65.0,45.0,1.0,0.0
1992-02-29,2.0,405.0,60.0,62.0,63.0,80.0,80.0,60.0,1.0,0.0
1992-03-31,3.0,525.0,80.0,82.0,83.0,100.0,100.0,80.0,1.0,0.0
1992-04-30,,,,,,,,,,
1992-05-31,,,,,,,,,,
1992-06-30,,,,,,,,,,
1992-07-31,,,,,,,,,,
1992-08-31,,,,,,,,,,
1992-09-30,,,,,,,,,,
1992-10-31,,,,,,,,,,


In [80]:
# 在真实数据场景中，我们可以使用interplolate()
# 从初值开始插值
data2.resample("M").first().interpolate("linear")

Unnamed: 0_level_0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1992-01-31,1.0,Bulbasaur,Grass,Poison,318.0,45.0,49.0,49.0,65.0,65.0,45.0,1.0,False
1992-02-29,2.0,Ivysaur,Grass,Poison,405.0,60.0,62.0,63.0,80.0,80.0,60.0,1.0,False
1992-03-31,3.0,Venusaur,Grass,Poison,525.0,80.0,82.0,83.0,100.0,100.0,80.0,1.0,False
1992-04-30,3.0,,,,533.333333,80.0,83.5,86.333333,101.833333,101.666667,80.0,1.0,
1992-05-31,3.0,,,,541.666667,80.0,85.0,89.666667,103.666667,103.333333,80.0,1.0,
1992-06-30,3.0,,,,550.0,80.0,86.5,93.0,105.5,105.0,80.0,1.0,
1992-07-31,3.0,,,,558.333333,80.0,88.0,96.333333,107.333333,106.666667,80.0,1.0,
1992-08-31,3.0,,,,566.666667,80.0,89.5,99.666667,109.166667,108.333333,80.0,1.0,
1992-09-30,3.0,,,,575.0,80.0,91.0,103.0,111.0,110.0,80.0,1.0,
1992-10-31,3.0,,,,583.333333,80.0,92.5,106.333333,112.833333,111.666667,80.0,1.0,


In [81]:
# 我们也可以使用mean()进行插值
data2.resample("M").mean().interpolate("linear")

Unnamed: 0_level_0,#,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1992-01-31,1.0,318.0,45.0,49.0,49.0,65.0,65.0,45.0,1.0,0.0
1992-02-29,2.0,405.0,60.0,62.0,63.0,80.0,80.0,60.0,1.0,0.0
1992-03-31,3.0,525.0,80.0,82.0,83.0,100.0,100.0,80.0,1.0,0.0
1992-04-30,3.041667,520.166667,78.291667,81.5,83.0,99.25,98.75,79.375,1.0,0.0
1992-05-31,3.083333,515.333333,76.583333,81.0,83.0,98.5,97.5,78.75,1.0,0.0
1992-06-30,3.125,510.5,74.875,80.5,83.0,97.75,96.25,78.125,1.0,0.0
1992-07-31,3.166667,505.666667,73.166667,80.0,83.0,97.0,95.0,77.5,1.0,0.0
1992-08-31,3.208333,500.833333,71.458333,79.5,83.0,96.25,93.75,76.875,1.0,0.0
1992-09-30,3.25,496.0,69.75,79.0,83.0,95.5,92.5,76.25,1.0,0.0
1992-10-31,3.291667,491.166667,68.041667,78.5,83.0,94.75,91.25,75.625,1.0,0.0


**小结：**
本节我们学习了如下内容：
* 使用zip等方法从字典中创建DataFrame
* 探索性数据分析可视化
* describle（）函数的使用
* 时间序列的处理和重采样

[返回目录](#目录)

# 用Pandas操作dataframe


### 数据索引
* 使用“[ ]”索引
* 使用列属性和行标签
* 使用loc访问器
* 只选择某些列

In [82]:
# 写入数据
data = pd.read_csv('/home/kesci/input/pokemon/Pokemon.csv')
data = data.set_index("#")
data.head()

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


In [83]:
# 方括号索引
data["HP"][1]

45

In [84]:
# 使用列属性和行标签
data.HP[1]

45

In [85]:
# 使用loc访问器
data.loc[1,["HP"]]

HP    45
Name: 1, dtype: object

In [86]:
# 只选取某些列
data[["HP","Attack"]]

Unnamed: 0_level_0,HP,Attack
#,Unnamed: 1_level_1,Unnamed: 2_level_1
1,45,49
2,60,62
3,80,82
3,80,100
4,39,52
5,58,64
6,78,84
6,78,130
6,78,104
7,44,48


### 数据切片
* 列选取的差异
	* Series 和 data frames
* 利用索引切片
* 反向切片
* 从某一列开始到最后一列

In [87]:
# 列选取的差异：series和data frames
print(type(data["HP"]))     # series
print(type(data[["HP"]]))   # data frames

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [88]:
# 用索引切片
data.loc[1:10,"HP":"Defense"]   # 包括第10行和"Denfense"列

Unnamed: 0_level_0,HP,Attack,Defense
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,45,49,49
2,60,62,63
3,80,82,83
3,80,100,123
4,39,52,43
5,58,64,58
6,78,84,78
6,78,130,111
6,78,104,78
7,44,48,65


In [89]:
# 反向切片
data.loc[10:1:-1,"HP":"Defense"] 

Unnamed: 0_level_0,HP,Attack,Defense
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10,45,30,35
9,79,103,120
9,79,83,100
8,59,63,80
7,44,48,65
6,78,104,78
6,78,130,111
6,78,84,78
5,58,64,58
4,39,52,43


In [90]:
# 从某一列开始到最后一列
data.loc[1:10,"Speed":] 

Unnamed: 0_level_0,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,45,1,False
2,60,1,False
3,80,1,False
3,80,1,False
4,65,1,False
5,80,1,False
6,100,1,False
6,100,1,False
6,100,1,False
7,43,1,False


### 数据过滤

* 创建一个布尔序列
* 多重过滤
* 基于其他过滤列的过滤


In [91]:
# 创建一个布尔序列
boolean = data.HP > 200
data[boolean]

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
113,Chansey,Normal,,450,250,5,5,35,105,50,1,False
242,Blissey,Normal,,540,255,10,10,75,135,55,2,False


In [92]:
# 多重过滤
first_filter = data.HP > 150
second_filter = data.Speed > 35
data[first_filter & second_filter]

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
113,Chansey,Normal,,450,250,5,5,35,105,50,1,False
242,Blissey,Normal,,540,255,10,10,75,135,55,2,False
321,Wailord,Water,,500,170,90,45,90,45,60,3,False
594,Alomomola,Water,,470,165,75,80,40,45,65,5,False


In [93]:
# 基于其他过滤列的过滤
data.HP[data.Speed<15]

#
213     20
328     45
438     50
446    135
597     44
Name: HP, dtype: int64

### 数据转换
* 使用普通函数
* 使用Lambda函数
* 使用其他列创建新列

In [94]:
# 使用普通函数
def div(n):
    return n/2
data.HP.apply(div)

#
1      22.5
2      30.0
3      40.0
3      40.0
4      19.5
5      29.0
6      39.0
6      39.0
6      39.0
7      22.0
8      29.5
9      39.5
9      39.5
10     22.5
11     25.0
12     30.0
13     20.0
14     22.5
15     32.5
15     32.5
16     20.0
17     31.5
18     41.5
18     41.5
19     15.0
20     27.5
21     20.0
22     32.5
23     17.5
24     30.0
       ... 
700    47.5
701    39.0
702    33.5
703    25.0
704    22.5
705    34.0
706    45.0
707    28.5
708    21.5
709    42.5
710    24.5
710    22.0
710    27.0
710    29.5
711    32.5
711    27.5
711    37.5
711    42.5
712    27.5
713    47.5
714    20.0
715    42.5
716    63.0
717    63.0
718    54.0
719    25.0
719    25.0
720    40.0
720    40.0
721    40.0
Name: HP, Length: 800, dtype: float64

In [95]:
# 使用Lambda函数
data.HP.apply(lambda n : n/2)

#
1      22.5
2      30.0
3      40.0
3      40.0
4      19.5
5      29.0
6      39.0
6      39.0
6      39.0
7      22.0
8      29.5
9      39.5
9      39.5
10     22.5
11     25.0
12     30.0
13     20.0
14     22.5
15     32.5
15     32.5
16     20.0
17     31.5
18     41.5
18     41.5
19     15.0
20     27.5
21     20.0
22     32.5
23     17.5
24     30.0
       ... 
700    47.5
701    39.0
702    33.5
703    25.0
704    22.5
705    34.0
706    45.0
707    28.5
708    21.5
709    42.5
710    24.5
710    22.0
710    27.0
710    29.5
711    32.5
711    27.5
711    37.5
711    42.5
712    27.5
713    47.5
714    20.0
715    42.5
716    63.0
717    63.0
718    54.0
719    25.0
719    25.0
720    40.0
720    40.0
721    40.0
Name: HP, Length: 800, dtype: float64

In [96]:
# 使用其他列创建新列
data["total_power"] = data.Attack + data.Defense
data.head()

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,total_power
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,98
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,125
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,165
3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,223
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,95


### 修改索引
* index: label序列

In [97]:
# 我们的索引名是：
print(data.index.name)
# 改变一下试试
data.index.name = "index_name"
data.head()

#


Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,total_power
index_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,98
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,125
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,165
3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,223
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,95


In [98]:
# 修改索引需要整体修改所有的索引
data.head()
# 首先将数据复制到data3，然后更改索引
data3 = data.copy()
# 让索引从100开始
data3.index = range(100,900,1)
data3.head()

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,total_power
100,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,98
101,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False,125
102,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False,165
103,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False,223
104,Charmander,Fire,,309,39,52,43,60,50,65,1,False,95


In [99]:
# 我们可以设置其中一列作为索引.
# data = data.set_index("#")
# 或者 
# data.index = data["#"]

### 分级索引
* 设置索引

In [100]:
# 重新写入数据
data = pd.read_csv('/home/kesci/input/pokemon/Pokemon.csv')
data.head()
# 可以看到这里有索引，但我们希望将一个或多个列设置为索引

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


In [101]:
# 设置索引:type 1是外部索引，type 2是内部索引
data1 = data.set_index(["Type 1","Type 2"]) 
data1.head(20)
# data1.loc["Fire","Flying"]   # 如何使用索引

Unnamed: 0_level_0,Unnamed: 1_level_0,#,Name,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Type 1,Type 2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Grass,Poison,1,Bulbasaur,318,45,49,49,65,65,45,1,False
Grass,Poison,2,Ivysaur,405,60,62,63,80,80,60,1,False
Grass,Poison,3,Venusaur,525,80,82,83,100,100,80,1,False
Grass,Poison,3,VenusaurMega Venusaur,625,80,100,123,122,120,80,1,False
Fire,,4,Charmander,309,39,52,43,60,50,65,1,False
Fire,,5,Charmeleon,405,58,64,58,80,65,80,1,False
Fire,Flying,6,Charizard,534,78,84,78,109,85,100,1,False
Fire,Dragon,6,CharizardMega Charizard X,634,78,130,111,130,85,100,1,False
Fire,Flying,6,CharizardMega Charizard Y,634,78,104,78,159,115,100,1,False
Water,,7,Squirtle,314,44,48,65,50,64,43,1,False


### pivot()函数

In [102]:
dic = {"treatment":["A","A","B","B"],"gender":["F","M","F","M"],"response":[10,45,5,9],"age":[15,4,72,65]}
df1 = pd.DataFrame(dic)
df1

Unnamed: 0,age,gender,response,treatment
0,15,F,10,A
1,4,M,45,A
2,72,F,5,B
3,65,M,9,B


In [103]:
# 重塑
df1.pivot(index="treatment",columns = "gender",values="response")

gender,F,M
treatment,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,45
B,5,9


### 堆叠和非堆叠数据
* 处理多标签索引
* level: 未堆叠索引的位置
* swaplevel: 改变内外层索引位置

In [104]:
df2 = df1.set_index(["treatment","gender"])
df2
# 堆叠数据

Unnamed: 0_level_0,Unnamed: 1_level_0,age,response
treatment,gender,Unnamed: 2_level_1,Unnamed: 3_level_1
A,F,15,10
A,M,4,45
B,F,72,5
B,M,65,9


In [105]:
# level 决定索引
df2.unstack(level=0)

Unnamed: 0_level_0,age,age,response,response
treatment,A,B,A,B
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
F,15,72,10,5
M,4,65,45,9


In [106]:
df2.unstack(level=1)

Unnamed: 0_level_0,age,age,response,response
gender,F,M,F,M
treatment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,15,4,10,45
B,72,65,5,9


In [107]:
# 改变内外层索引位置
df3 = df2.swaplevel(0,1)
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,age,response
gender,treatment,Unnamed: 2_level_1,Unnamed: 3_level_1
F,A,15,10
M,A,4,45
F,B,72,5
M,B,65,9


### Smelt()函数
* pivot()的逆向变换

In [108]:
df1

Unnamed: 0,age,gender,response,treatment
0,15,F,10,A
1,4,M,45,A
2,72,F,5,B
3,65,M,9,B


In [109]:
# df1.pivot(index="treatment",columns = "gender",values="response")
pd.melt(df1,id_vars="treatment",value_vars=["age","response"])

Unnamed: 0,treatment,variable,value
0,A,age,15
1,A,age,4
2,B,age,72
3,B,age,65
4,A,response,10
5,A,response,45
6,B,response,5
7,B,response,9


### 聚合groupby（）

In [110]:
# 以下示例仍然使用df1
df1

Unnamed: 0,age,gender,response,treatment
0,15,F,10,A
1,4,M,45,A
2,72,F,5,B
3,65,M,9,B


In [111]:
# 聚合取平均值
df1.groupby("treatment").mean()   
# 当然还有其他的方法如： sum, std, max，min

Unnamed: 0_level_0,age,response
treatment,Unnamed: 1_level_1,Unnamed: 2_level_1
A,9.5,27.5
B,68.5,7.0


In [112]:
# 选择一个特征
df1.groupby("treatment").age.max() 

treatment
A    15
B    72
Name: age, dtype: int64

In [113]:
# 也可以选择多个特性
df1.groupby("treatment")[["age","response"]].min() 

Unnamed: 0_level_0,age,response
treatment,Unnamed: 1_level_1,Unnamed: 2_level_1
A,4,10
B,65,5


In [114]:
df1.info()
# gender是一个对象
# 如果使用groupby()，我们可以将它转换为categorical数据
# categorical data 占用更小的内存，可以加快groupby之类的操作
# df1["gender"] = df1["gender"].astype("category")
# df1["treatment"] = df1["treatment"].astype("category")
# df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
age          4 non-null int64
gender       4 non-null object
response     4 non-null int64
treatment    4 non-null object
dtypes: int64(2), object(2)
memory usage: 208.0+ bytes


**小结**

本节我们学习了如下内容：
* 索引、切片、过滤、转换
* 修改索引及分级索引方法
* 重塑DataFrame
* 堆叠和非堆叠数据
* 聚合

[返回目录](#目录)