# 数据可视化

## 基本概念
数据可视化是指借助于图形化的手段，清晰，快捷有效的传达与沟通信息，同时，也可以辅助用户做出相应的判断，更好的去洞悉数据背后的价值


## 图形绘制

### 绘制线图
可以通过matplotlib.pyplot的plot的方法进行图形绘制
* plot(y)
* plot(y,'格式')
* plot(x,y)
* plot(x,y,''格式)
* plot(x1,y1,'格式1')

In [None]:
# 注意：如果仅仅画一个点，则该点是看不见的，我们需要指定标记后，才能看到该点
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
# plt.plot(15,'o')
# 如果没有指定横坐标x，则横坐标默认从0开始，增加为1
# plt.plot([3,10])
# 在绘制的时候，也可以指定点的标记，线条的颜色与线条的类型
# plt.plot([1,5,7],[2,-2,4],'g*--')
# 也可以一次性的绘制多个图形，分别指定颜色，标记线条与类型
# plt.plot([1,5,7],[2,-2,4],'g*-',[16,17],[-9,0],'r>-')

# 在一个区间一系列的值，绘制一条曲线
x = np.arange(-5,5,0.1)
y = x**2
plt.plot(x,y)

## 图形交互设置
我们可以设置jupyter notebook 图形是否是交互显示，默认是否


In [None]:
%matplotlib inline
x = np.arange(-5,5,0.1)
y = x**2
plt.plot(x,y)

## 设置中文支持
matplotlib默认的情况下，不支持中文显示，如果需要显示中文，则我们需要做一些额外的操作
设置可以分为：
* 全局设置
* 局部设置

### 全局设置
我们可以通过执行：
mpl.rcParams['font.family']='SimHei'
mpl.rcParams['axus.unicode_minus']=False
进行设置，常用的设置如下：
* font.family 字体的名称
sans-serif 西文字体（默认）
SimHei 中文黑体
FangSong 中文仿宋
YouYuan 中文幼圆
STSong 华文宋体
Kaiti 中文楷体
LiSu 中文隶书

* font.style :字体的风格
normal 常规，默认的
italic 斜体
oblique 倾斜

* font.size 字体的大小（默认是10）
* axes_unicode_minus:是否使用减号，在中文显示的状态下，需要设置为False

### 局部设置
在需要显示的中文中使用fontproperties参数进行设置
说明：如果全局与局部设置冲突以局部设置为准


In [None]:
# 默认的情况下，matplotlib不支持中文显示，如果需要设置中文的字体后，-号又不支持了
# 原因：当我们设置字体为支持中文的字体后，负号也会使用unicode字符集中提供的负号，该负号不支持显示
mpl.rcParams['font.family'] = 'SimHei'
mpl.rcParams['axes.unicode_minus'] = False

mpl.rcParams['font.size'] = '20'
plt.plot([1,2,-2],[4,5,6])
# plt.title('这是一条线，但是你看不见')
# 字体局部设置已经在这个版本中不生效了
plt.title('字体局部设置',fontsize=30,fontproperties='SimHei')

## 保存图标
通过plt的savefig方法将当前的图形保存到硬盘或者类文件对象中
dpi：每英寸分辨率的点数
facecolor：设置图像的背景色
bbox_inches:设置为tight，可以紧凑保存图像

In [None]:
# 支持的颜色表示：
# 颜色的全称
# 颜色的简称
# 使用6个十六进制的RGB表示
plt.plot([1,2,3],[4,5,6])
plt.savefig("c:/1.jpg", dpi=200, facecolor="g", bbox_inches="tight")

In [None]:
# StringIO与BytesIO都是类文件对象。不同的是，BytesIO是字节（二进制）类型，
# 而StringIO是字符类型。
from io import BytesIO

b = BytesIO()
# 也可以将图像的数据保存到类文件对象（内存的缓存区）中。
plt.savefig(b)
# b.seek(0)
# b.read(20)

# 获取缓存区中的数据（与文件指针的位置无关）。
b.getvalue()

## 颜色，点标记，与线性设置
我们可以在绘制图形的时候，显示指定图形的颜色，点标记或线条形状，具体设置可以查看帮助文档
* color（c）：线条的颜色
* linestyle(ls):线条的形状
* linewidth(lw)：线条的宽度
* marker:点标记形状
* markersize（ms）：点标记的大小
* markeredgecolor（mec）：点边缘的颜色
* markeredgewidth（mew）：点边缘的宽度
* markerfacecolor（mfc）：点的颜色

说明：
颜色，点标记与线条的可以使用一个参数进行设置
颜色除了可以使用预设简写的字符之外，可以使用全称（例如red）也可以使用rgb的颜色表示



In [None]:
plt.plot([1,5,8],[2,4,6],c='r',ls='--',lw=3,marker='*',ms=10,mec='g',mew=3,mfc='b')

## 透明度的设置
在绘制的图像的时候，我们可以通过alpha参数来控制图像的透明度，值在0-1之间，0位全透明

In [None]:
plt.plot([1,5,6],[3,5,7],alpha=0.5)

## 图例设置
在绘制多线条的时候，可以设置图例来标注每条线所代表的含义，使得图形更加清晰易懂，可以采用如下的方式设置图例：
* 调用plt的legend函数，传递一个标签数组，指定每次plt的标签
* 在绘制的时候，通过label参数指定图例中显示的名称，然后调用legend函数生成图例

legend常用的参数：
* loc：指定图例的位置，默认是best，也可以指定坐标（元组），基于图像的左下角计算
* frameon： 设置是否含有边框
* title：设置图例的标题
* 图例显示的列数，默认为1


In [None]:
#设置图例的时候，可以采用两种方式
#1，在legend方法中指定图例显示的内容
# 2，在绘制图形的时候，增加label参数，指定图例显示的内容
plt.plot(np.arange(1,13),np.random.randint(100,200,size=12),label='去年')
plt.plot(np.arange(1,13),np.random.randint(100,200,size=12),label='今年')
# 通过label指定图例的内容之后，调用legend方法就不需要传递任何内容了
# loc 指定图例的显示的位置，默认是best。可以是int string元组类型
plt.legend(loc='best')
# 元组具有两个元素，分别指定x与y轴对于远点的偏移比例，原点在左下角
# plt.legend(loc=(0.2,0.4))
# plt.legend(loc=(0,0))


## 网格设置
可以通过plt的grid方法来设置是否显示网格，true为显示，False不显示，ax.grid(color='r', linestyle='-', linewidth=2)

* color ：设置网格线的颜色
* axis：设置网格线显示x，y或者全部显示（x，y，both）
* linestyle：设置网格线的形状
* linewidte： 设置网格线的宽度


In [None]:
plt.plot(np.arange(1, 13), np.random.randint(100, 200, size=12))
# plt.grid(color="g", axis="both")
# plt.grid(color='b',linestyle='--')
# plt.grid(color='y',linewidth=3)

## 绘图区域设置
我们可以在一张图上绘制多个图形，当然，我们也可以将不同的图形绘制到多个不同的区域当中，我们可以采用以下的方式来实现多个区域的绘制（创建子绘图区域）

* 通过figure对象调用add_subplot方法
* 通过plt的subplot方法
* 通过plt的subplots方法


### 子区域1：add_subplot方法
* 首先创建matplotlib.figure.Figure对象，然后通过Figure对象的add_subplot方法增加子绘图区域
* add_subplot方法中，需要指定子区域的行数，列数与当前要绘制的子区域
* add_subplot方法会返回子绘图对象（轴对象），通过该对象即可实现绘图
matplotlib.axes._subplots.AxesSubplot

在绘制图形的时候，总是需要创建Figure对象，如果没有显示小黄鸡，则plt会隐式创建一个Figure对象，在绘制图形时候，既可以使用plt来绘制，也可以使用子绘图对象来绘制
如果使用plt对象绘制，则总在最后创建的绘图区域上进行绘制，如果此时尚未创建绘图区域，则会自动创建

说明：
* add_subplot的方法参数，既可以使用三个参数分开传递，也可以使用一个参数整体传递
* 可以通过plt.subplots_adjust方法来调整子绘图的位置与子绘图之间的距离（lest，right，top，bottom，wspace，hspace）
* 创建子区域时候，可以使用facecolor设置绘图区域的背景色


In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt

# 创建Figure（画布图像），我们想要绘制图形，就必须要有画布的对象的支持
#当我们使用plt绘制图形的时候，如果没有显示区创建Figure对象，plt会自动隐式创建
f = plt.figure()
# 创建并返回子绘图区域，需要指定子绘图区域的行数，列数，以及当前的子绘图区域的索引（）
#（当前创建的是第几个子绘图区域）
# 注意子绘图区域的索引从1开始。创建的第一个子绘图区域
ax = f.add_subplot(1,2,1)

# 创建子绘图区域之后，我们就可以通过该对象调用plot方法进行绘制
# 1,2代表的是横坐标，3,4代表的是纵坐标
# ax.plot([1,2],[3,4])
# 最后一个2代表的是创建的第二个子绘图区域
ax2 = f.add_subplot(1,2,2,facecolor='green')
# ax2.plot([5,10],[2,6],'go--')
ax2 = f.add_subplot(1, 2, 2, facecolor="green")
# ax2.plot([5, 10], [2, 6], "go--")
plt.plot([5, 10], [2, 6], "ro--")

# plt也能够进行绘制，当存在多个子绘图区域的时候，plt永远只带的是最后创建的子绘图区域，plt.plot
# 会在最后创建的子绘图区域上进行绘制，如果此时还没有创建的话会进行隐式创建

# 调整子绘图区域和子绘图区域之间，子绘图区域与画布之间的距离
# plt.subplots_adjust(wspace=2)

### 子区域2 ：subplot方法
通过调用plt的subplot方法创建子绘图区域，该方法返回子绘图对象，此方式下，会隐式创建figure对象

实际上这种创建子绘图区域的方式，底层也是通过第一种方式实现的

In [None]:
# 此种方式其实底层也是通过第一种方式来实现的
# 使用这种方式，我们可以不用显示去创建figure对象
plt.subplot(2,1,1)
plt.plot([1,2],[3,4])
plt.subplot(2,1,2)
plt.plot([3,4],[4,7])

### 子区域3：subplots方法
通过plt的subplots方法创建子绘图区域，该方法返回一个元组（figure对象与所有子绘图对象），如果是多个子绘图对象，返回的是一个ndarray数组，可以通过sharex与sharey来指定是否共享x轴与y轴

In [None]:
# ssubplots 方法与前面的两种方法有一定的区别：
# 前面两种方法的子绘图区域对象是一个个创建的，而第三种方法，子绘图区域的对象是同时创建好的
# 该方法会返回一个元组，该元组有两个元素（figure，所有的子绘图区域构成的整体【类型不定】）
# 说明：返回值（元组）中的第二个元素，会因为创建子绘图区域，行与列的数量的不同而不同
# 当行和列都为1的时候，此时返回的是AxesSubplot类型
# 当行与列其中有一个为1的时候，返回一维ndarray数组
# 当行与列都大于1的时候，返回的是一个二维的ndarray数组

# 当我们绘制图像的时候，默认会根据坐标进行调整，导致不同的比例看上去很相似，此时我们可以
# 共享所有子绘图区域的坐标轴，进而可以体现出这种差异
fig,ax = plt.subplots(1,2,sharex=True,sharey=True)
# display(fig)
display(type(fig))
# display(type(ax))
# display(fig)
ax[0].plot([1,2],[5,8])
ax[1].plot([4,5],[7,8])

## 绘图区域大小的设置（画布的设置）
如果子绘图区域较多，可能会有些拥挤，此时，我们可以调整绘图区域的大小，方式如下：
* 在调用plt.figure（），创建figure对象的时候，通过figsize参数指定，单位为英寸
* 在创建figure对象之后，可以通过figure对象的set_size_inches方法设置

说明：
* 如果没有显示创建figure对象，可以通过plt的gcf函数来获取当前的figure对象


In [None]:
# 第一种方式，在创建figure对象时候设置
# figsize传递一个元组类型，元素含有两个元素（画布的宽度，画布的高度）单位：英寸
plt.figure(figsize=(5,5))


# 第二种方式是在创建figure对象之后 通过set_size_inches方法进行设置
f = plt.figure()

f.set_size_inches((7,7))
plt.plot([1,2,3])

# gcf get current figure 获取当前的figure对象，如果此时没有创建figure对象。则会隐式自动创建
# 如果已经创建，则返回已经存在的figure对象，不会重新创建

f2 = plt.gcf()
f is f2

## 标签和刻度设置
可以通过plt对象的相关方法来设置（或获取）标签与刻度信息，设置还是获取，取决于是否传递实际参数

* plt.xlim 设置或获取x轴的刻度范围
* plt.ylim 设置或获取y轴的刻度范围
* plt.xticks 设置或获取x轴显示的刻度和标签
* plt.yticks 设置或获取y轴显示的刻度和标签
* plt.axis 可以同时设置或获取x轴和y轴的刻度范围，或者取消刻度显示

无参数：返回一个元组。(xmin, xmax, ymin, ymax)
(xmin, xmax, ymin, ymax)，同时设置x与y轴的刻度范围
off 取消坐标轴的显示
tight：坐标轴的紧凑显示
equal：x与y具有同样的长度

## 标签说明与标题设置
plt.xlabel设置x轴的标签说明
plt.ylabel设置y轴的标签说明
plt.title 标题设置


In [None]:
mpl.rcParams['font.family'] = 'SimHei'
mpl.rcParams['axes.unicode_minus'] = False
# 如果没有设置坐标轴的取值范围，则会根据我们绘制点的范围进行调整
# plt.plot([2,3,4],[4,6,8])
# xlim与ylim 设置或获取坐标轴的取值范围，设置还是获取，取决于我们是否传递参数
# plt.xlim(0,100)
# 仅仅设置下界
# plt.xlim(80)
# 仅设置上界
# xmin=2
# plt.xlim(xmin,50)

# 通过关键字参数设置上界
# plt.xlim(xmax=50)

# xticks/yticks设置坐标轴的数值刻度
# plt.xticks([0,60,80,100])
# 还可以设置刻度值的标签，如果没有设置，则显示刻度的值
# plt.xticks([0,60,80,100],['不及格','及格','优秀','卓越'])

# 同时设置x轴和与y轴的取值范围
plt.axis()
plt.axis((-3,6,0,19))

# 取消坐标轴的显示

# plt.axis('tight')
# 使得坐标轴等比例显示
# plt.axis('equal')

# 定义弧度的取值范围
import numpy as np
arc = np.linspace(0,2 ** np.pi,200)
r = 1
x = r * np.cos(arc)
y = r * np.sin(arc)
plt.plot(x,y)
plt.axis('equal')
# 设置x轴和y轴的显示的标签内容
plt.xlabel('部门')
plt.ylabel('销售量')
plt.title('这是一个圆')

## 通过绘图对象设置
除了通过plt对象外，我们还可以通过子绘图对象来设置与获取标签刻度
ax.set_xlim 设置x轴刻度范围。
ax.get_xlim 获取x轴刻度范围。
ax.set_xticks 设置x轴显示的刻度。
ax.get_xticks 获取x轴显示的刻度。
ax.set_xticklabels 设置x轴显示的刻度标签。默认显示的是就是刻度值。
ax.get_xticklabels 获取x轴显示的刻度标签。
也可以设置标签说明与标题。

ax.set_xlabel 设置x轴的标签说明。
ax.get_xlabel 获取x轴的标签说明。
ax.set_title 设置标题。
ax.get_title 获取标题。
说明：

如果需要设置或者获取y轴，只需要将x换成y即可。
在设置标签时，可以使用rotation参数，令标签旋转。

In [None]:
ax = plt.subplot(1,1,1)
ax.set_xlim(5,10)
ax.set_xticks([4,5,6,7,8,9])

## 添加注解
我们可以在图形上绘制文本等说明信息

### 普通文本
plt.text 显示文本 （基于坐标）
plt.figtext 显示文本（基于图片）

### 箭头
plt.arrow 根据起点坐标（x，y）与各自轴的长度（x+dx,y+dy）绘制箭头
width 箭头尾部的宽度。
head_width 箭头的宽度。
head_length 箭头的长度。

### 箭头和文本
plt.annotate 显示箭头与文本
* xy箭头指向坐标
* xytext 文本起点坐标
* arrowprops 字典的类型，可设置箭头的属性
facecolor 箭头的颜色
headwidth 箭头的宽度
width：箭尾的宽度
shrink 收缩大小
headlegth 箭头的长度
arrowstyle ：一些预设的箭头样式，当含有该参数的时候，上述4项参数将不再有效


In [None]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.rcParams['font.family'] = 'SimHei'
mpl.rcParams['axes.unicode_minus'] = False
x = np.linspace(-5,5,100)
y = x ** 2
plt.plot(x,y)
# 显示说明文字注解基于坐标进行定位
plt.text(0.2,0.5,'绘制文本')
# 基于图像的比例进行定位，远点在左下角
# plt.figtext(0.2,0.5,'绘制文本2')

# 绘制箭头，指定起点的位置坐标（x，y）与各自的轴的偏移量dx，dy
# 即终止点的坐标为（x+dx）,y+dy）
plt.arrow(2,10,-2,-10,width=0.1,head_width=0.5,head_length=0.5,color='r')
plt.text(-3,11,'这是极值点')

## 绘图样式设置
我们可以通过plt.style.use（'样式名'）来设置绘图使用的样式
说明：执行plt.style.available来获取所有的绘图样式


In [None]:
# 获取绘图支持的所有样式
plt.style.available
plt.style.use('ggplot')

## 图形类型
### 折现图

折线图适合展示数据的趋势与增加变化，例如，一周的气温变化。股市的涨幅

In [None]:
plt.plot([20,22,18,25,30,36,38],marker='*')

## 柱形图、条形图
plt.bar 柱形图
plt.barh  条形图

In [None]:
# 适合呈现数据的大小对比
# plt.bar(['A','B','C','D'],[50,30,40,20],width=0.5)

# plt.barh(['A','B','C','D'],[50,30,40,20],height=0.5)



## 饼图
plt.pie 饼图
* labels 每个部分显示的标签
* explode 指定的每个部分距离圆心的偏移量（单位为半径的长度）
* colors ：指定每个部分的颜色
* autopct ：设置每个部分显示的比例值（格式化）
* counterclock：是否是逆时针绘图，默认是True
* startangle : 初始绘图点位置，逆时针偏移x轴的角度，默认是偏移0度
* shadow 是否含有阴影


In [None]:
# 饼图适合于呈现数据的比例对比【饼图显示的数据不宜过多】
# plt.pie([100,200,300,400],labels=['a部门','b部门','c部门','d部门'])
# explod 用来指定饼图的每个数据部分（每张饼）距离圆心的距离，默认为0，单位：半径
# 说明：偏离圆心的目的是为了突出显示这块数据，因此，通常只会将一个数据（一张饼）偏离圆心
# plt.pie([100,200,300,400],labels=['a部门','b部门','c部门','d部门'],explode=[0,0,0,1])



## 散点图、气泡图
散点图适合用于用来显示比较数据的分布状态
* marker点的标记
* s点的大小
* color点的颜色

说明：
color 与s 参数可以统一设置，也可以为每一个点单独设置


In [None]:
# 散点图（气泡图）使用与显示数据的分布状态，可以用来比较（对比）数据维度之间的关系
# 散点图可以显示2个维度，气泡图可以显示2-4个维度

x = np.random.randint(1,100,size=100)
y = np.random.randint(1,100,size=100)
# plt.scatter(x,y,marker='o',s=10,color='green')

# 点的颜色与大小可以统一设置，也可以分别设置每个点的大小与颜色
# s = np.random.randint(10,100,size=100)
# colors = ['r','g','b','y']
# np.random.choice(colors,size=100)
# # plt.scatter(x,y,s=s,color=colors)
# plt.scatter(x, y, s=s, color=colors)
s = np.random.randint(10, 100, size=100)
colors = ["r", "g", "b", "y"]
colors = np.random.choice(colors, size=100)
plt.scatter(x, y, s=s,c=colors)

## 直方图
直方图，可以看成是一种特殊的柱形图，用来将连续的数据频率（数量）进行离散化显示，在直方图中，数据被分割成若干区间，然后统计每个区间数据出现的频率（数量）
我们可以通过plt.hist来绘制直方图

* bins ：设置分割区间的数量
* normed：进行归一化显示


In [None]:
# 直方图类似于柱形图，直方图用于将连续值转换成离散值显示
# hist 返回的内容：
# 第一个数组：每个区间中含有元素的数量（默认桶的数量为10）
# 第二个数组：表示每个区间的界限，界限为前闭后开，最后一个桶特殊，为双闭区间
x = np.random.randint(1,101,100)
# 默认将区间等分为十份
# plt.hist(x)
# 我们也可以自行指定桶的数量
plt.hist(x,bins=5)

# 如果需要统计的区间是不等分的，可以给bins参数传递一个数组类型，数组中的元素指定区间的界限
plt.hist(x,bins=[1,10,80,90,100])

## 箱线图
箱线图叶城盒线图，通过极值与Q1,Q2,Q3值来描述数据，通过箱线图，我们可以发现数据中的立群值，箱线图的离群点为：Q3+1.5IQR和Q1－1.5IQR 其中IQR 为两个四分位之间的距离

In [None]:
# 箱线图：能够显示 离群点：大于Q3+1.5QR 或者 小于Q1-1.5IQR。IQR：Q3与Q1的差
# 离群点为可以的异常值，但不是一定为异常值
plt.boxplot([50,40,45,48,70,60])

## Series与DataFrame图形绘制
series与dataframe类型的对象也支持图形绘制，使用对象的plot方法即可
如果我们需要绘制图形的数据就存在series或者dataframe对象中，我们可以直接绘制，而无需用plt.plot

In [None]:
# series 与 dataframe 具有plot方法，可以用来绘制图像中的数据，而无需使用plt.plot
import pandas as pd
# s = pd.DataFrame([1,3,5])
# s.plot()
df = pd.DataFrame([[1,2,3],[3,4,5],[6,9,0]])
display(df)
df.plot()

## 其他类型图形
plot 默认绘制的是线形图，我们可以通过调整其kind参数值来绘制其他类型的图形
* line：线形图
* bar ：柱形图
* barh：条形图
* hist：直方图
* kde/density:核密度图
* pie：饼图
* box：箱线图
* area：面积图

参数：
* color ：
* alpha：
* stacked：是否堆叠

说明：plot(kind='类型')也可以通过plot‘类型’来进行绘制


In [None]:
df = pd.DataFrame([[1,3,4],[3,5,6],[6,8,9]])
display(df)
# df.plot(kind='line')
# df.plot(kind='bar')
# df.plot(kind='area')

# 绘制堆叠图，堆叠图适合展示数据所占比例
# df.plot(kind='bar',stacked=True)

s = pd.Series(np.random.randn(1000))
# s.plot(kind='kde')

# 当我们使用dataframe 绘制饼图时，我们需要指定y（绘制其中一例）或者subplots参数
# 为true 表示绘制所有列，每列一个子图
# df.plot(kind='pie',y=0)
df.plot(kind='pie',subplots=True)

# Numpy
numpy 是科学计算的基础的一个库，提供了大量关于科学计算的相关功能，例如：线性变换，数据统计，随机数生成等，其提供的最核心的类型为多维数组类（ndarray）


## 数组的创建，常用的方式如下
* array
* arange
* ones/ones_like
* zeros/zeros_like
* empty/empty_like
* full/full_like
* eye/identity
* linspace
* logspace


In [None]:
import numpy as np

a = np.array([1,2,3])
a = np.array([[2,3,4],[4,5,6]])
a = np.arange(0,10)
# 会发现如果产生0到10的范围内的数，并且增量为0.3，那么数值的范围的可以取到9.9
a = np.arange(0,10,0.3)
# arange与python中的range类似，但是arange可以指定浮点类型的增量，而range不能
a = np.ones(shape=(2,3))
a = np.ones_like(a)
a = np.zeros(shape=(3,3))
a = np.full((3,3),10)
a = np.full_like(a,100)
# 创建一个数组是单位矩阵
a = np.eye(5)
a = np.identity(5)
# 创建一个数组，数组的元素是等差数列
np.linspace(1,40,num=30,endpoint=False)

# 创建一个等比数列的元素
# base:以2位底的底数
np.logspace(1,10,10,base=2)



In [None]:
# arange 与linspace方法
# 相同点：二者都可以生成等差数列但是arange注重的是固定的增量，不在乎数量的大小
# linspacw 更在乎元素数量的多少，不在乎产生增量的大小


In [None]:
# 列表中元素的类型可以是不同的,但是ndarray中的元素类型必须是相同的
li = [1,2.0,True,'st',[1,2,3],(32,)]
li

## 数组ndarray和列表list
数组与列表的类似，具有相同的类型的多个元素构成整体

局限：
* 数组元素要求是相同的类型，而列表的元素可以是不同的类型

优势：
* 数组可以与标量进行运算，数组之间也可以进行矢量化运算【随影位置的元素进行运算时，无需进行循环操作，这样就可以充分利用处理器SIMD single】

* 数组在运算时，具有广播能力，可根据需要进行元素的扩展，完成运算
* 数组在底层使用c语言编写，运算速度快
* 数组的底层使用C中的数组存储方式（紧凑存储）节省内存空间


In [None]:
# 数组的优势，可以进行矢量化的计算
# 当ndarray 执行矢量化计算时候，就是进行对位元素的计算

a = np.array([1,2,3])
b = np.array([2,3,4])
# a + b

# 广播：广播既可以发生在标量与矢量之间，也可以发生在矢量和矢量之间
# 当进行计算时候，如果两个操作数的形状不同，并且至少有一个操作数是ndarray数组类型
# 此时，会尽可能的将两个操作数进行扩展调整，变成相同的形状，这种现象称为广播

# 数组也可以与标量执行计算
x = 1
a = np.array([1,2,3])
# a + x

# 广播不仅可以发生在标量和标量之间，还可以发生在矢量和矢量之间
a = np.array([1,2,3])
b = np.array([[1,1,1],[2,3,4]])
# a + b

# 沿着列的方向进行广播
c = np.array([[1],[2]])
# b + c

# 广播的现象是普遍的，但是并非是所有情况下，都能够进行正常的广播的
d = np.array([1,2])



## 相关属性和操作
数组的对象具有如下的常用属性
* ndim
* shape
* dtype
* size
* itemsize


In [None]:
# a = np.array([1,2,3])
a = np.ones(shape=(2,3))
# 返回数组的维度
a.ndim
# 返回数组的形状，更多的时候，我们使用此属性并不是关注数组的形状，而是关注
# 某个维度的大小和（长度），例如二维数组，我们获取数组的行或者列数，就可以使用
a.shape[0]
a.shape[1]

# 返回数组元素的类型
a.dtype

# 返回ndarray数组元素的个数（从最低维计数）
a.size

# 返回元素占用空间的大小，以字节为单位
a.itemsize



## 数据类型
* 在创建数组时，也可以使用dtype来显示指定数组中元素的类型（通过numpy提供的类型进行指定）
* 如果没有指定，则会根据元素类型进行推断
* 如果元素的类型不同，则会选择一种兼容的类型

In [None]:
# 如果我们在创建ndarray数组时候，没有显示指定数组的元素类型，数组可以自动推断
# 元素的类型，当然，我们也可以通过dtype参数来显示指定，数组元素的类型

a = np.array([1,2,3],dtype=np.float32)
a.dtype
# ndarray 数组的所有元素都是同一个类型，即使在创建时候，看似指定了不同的类型
# 实际上ndarray也会选择一种兼容的类型

a = np.array([1,2.0])
a.dtype



## 类型转换
我们可以通过数组对象的astype函数来进行类型转换

In [None]:
a = np.array([1.0,2.0,3.5])


# astype 会返回一个新的ndarray数组对象，新的数组对象是类型转换之后的结果，原有的数组对象没有发生变化
a.astype(np.int32)
print(a.dtype)

#  整数类型与浮点类型在计算机中的存储方式（存储结构）是不同的，因此我们不能试图去修改dtype属性


## 改变形状
我们可以通过数组对象的reshape方法，或者np的reshape函数，来改变数组形状
说明：
* 改变数组形状时候，如果维度不小于2，可以将某一个维度设置为-1
* numpy 中存在很多方法，皆可以使用np来访问，也可以通过数组对象来访问


In [None]:
a = np.array([[1,2,3],[4,5,6]])
print(a.shape)
b = np.reshape(a,(3,2))

# 在reshape改变形状的时，我们可以将其中一个维度指定为-1
# -1表示根据数组元素个数与其他维度的长度，自动进行计算
# 如果在改变形状时指定为-1，则最多只能将一个维度指定为-1

a = np.arange(12).reshape((-1,4))
print(a)

# numpy 库中，有很多方法，既可以通过np.方法，进行调用
# 也可以通过，ndarray 数组对象，方法，进行调用
# reshape 方法就是其中的一个"


## 索引与切片
在python中，序列类型支持索引与切片操作，在numpy中也支持

### 相似点
数组对象也支持索引与切片操作，语法与python中序列类型的索引和切片相似
当数组是多维的时候，可以使用array【高维，低维】方式按维度进行索引或切片
### 不同点
数组的切片返回的是原数组数据的视图，如果需要复制底层的数组元素，可以使用数组对象的copy方法
注意：
* 视图是共享底层的数组元素，但视图并不是赋值


In [None]:
a = np.arange(20)
# display(a)
# a[3:5]

a =a.reshape((4,5))
display(a)
a[1,4]
# 前面是高维的，后面是低维的
a[1:3,1:4]

In [None]:
# noarray 切片返回的是原数组的对象的视图，而并非是拷贝
# 视图对象与原ndarray 数组对象并非同一个对象，但是会共享底层的数据
a = np.array([1,2,3])
b = a[:]
# print(a is b)
# 如果不希望一个数组的改变对其他数组造成影响，我们可以使用ndarray数组对象的copy
# copy方法返回原数组的复制，而不是视图
c = a.copy()
a[0] = 100
print(c)
print(a)


## 通过整数数组进行索引
当要选取的元素不连续时候，可以提供一个索引数组来选择（或修改）对应索引位置的元素
说明：
* 通过整数数组索引，返回的是原数组的拷贝不是视图
* 可以提供一个一维数组索引，此时会将每个数组的对应位置元素作为索引，返回对应的元素


In [None]:
a = np.arange(10)
# 定义一个数组，用来存储要提取的元素的索引
index = [0,1,9,8]
# 使用该索引提取某数组队形位置的元素
a[index]

# 当使用索引提取元素的时候，返回的是原数组的拷贝，而不是视图，ndarray数组的切片返回的是原数组的视图
b = a[index]
b[0] = 100
print(a)
print(b)
# 返回的结果如下：
# [0 1 2 3 4 5 6 7 8 9]
# [100   1   9   8]

In [None]:
# 如果要提取的元素的数组是多维的，我们可以提供多个一维的索引数组，每个一维的
# 索引数组分别指定每个维度的索引，[[最高索引]，[次高索引]...[最低维的索引]]

a = np.arange(30).reshape((5,6))
display(a)
a[[1,3],[2,5]]

## 通过布尔数组进行索引
我们可以提供一个布尔类型的数组（A），然后通过该数组（A）来对另外一个数组）（B）进行索取（元素选取），索引的原则为：如果为True，则选取对应位置的元素
否则不选取
通过布尔类型的数组进行索引是常见且使用的操作，我们通常用来进行元素的选择（或过滤）例如：
* 选择一个公司中所有年龄大于15的
* 选择两个数组中对应位置相同的元素
* 将所有大于100的值设置为100

说明：
* 用于索引的布尔数组通常通过现有的数组计算得出
* 可以通过-对条件的进行取反操作
* 当存在多个条件的时候，可以使用& | 不能使用and 和or，同时
  每个条件需要用括号括起来


In [None]:
# 可以通过布尔数组来提取元素，前提要求：提供的布尔数组与要提取元素的数组，二者的长度必须一致
# 提取规则：对位提取，如果对位布尔数组元素的值True，则提取该元素，否则丢弃该元素

a = np.array([1,2,3,4])
b = [True,False,True,False]
a[b]

# 实际过程中，我们不会自己制定，而是通过计算得出
b = a>2
a[b]
a[a>2]

age = np.array([10,18,16,20,30,25,14])
age[age>15]
# 判断等于的时候，会进行对位比较
age2 = np.array([10,19,20,30,14,10,0])
age[age==age2]

# ndarray 虽然可以进行矢量化计算，但是需要注意的一个特殊符=
# score = 0 此时不会进行矢量化计算，而是将score绑定新的对象0
# 如果要实现矢量化赋值的操作，我们可以利用切片的语法
# 不可以用age=0这样的方法实现

# 注意：对于多条件的组合，不能使用python中的and与or
# 否则 也不能使用python找那个的not
# and 使用&  or 使用 |  not 使用的是~


## 数组扁平化

我们可以通过调用ravel 或flatten 方法，对数组对象进行扁平化处理
np.ravel/ravel
flatteb

二者的区别在于 ravle返回的是原数组的视图，而flstten返回的是原数组的拷贝

## 数组的存储顺序
* c 
* f
在创建数组的时候，可以通过order指定数组元素的顺序，数组元素的存储顺序有两种：
1C： 以c程序为代表的行优先存储
2 F： 以Fortran程序为代表的列优先存储
构建数组的时候，首先回将提供的数据进行扁平化处理，然后再使用扁平化后的结果，对数组进行填充，order影响两个位置---扁平化和填充
在扁平化操作的时候，会根据order指定的方式进行扁平化
在数组填充的时候，会根据order指定的方向进行填充

In [None]:
x = np.arange(12).reshape((2,3,2))
print(x)
# np.ravel(x)
# x.ravel()
# x.flatten()

# ravel 与 flatten 都能够对数组进行扁平化操作，二者的区别在于：
# ravel 返回的是原数组的视图，与原数组共享底层数据
# flatten 返回的是原数组的拷贝，与原数组数据互补影响


In [None]:
x = np.array([[1,2,3],[4,7,8]]).reshape((3,2))
display(x)
y = np.array([[1,2,3],[5,7,8]]).reshape((3,2))
display(y)

In [None]:
x = np.array([[1,2,3],[4,7,8]]).reshape((3,2),order='C')
display(x)
y = np.array([[1,2,3],[5,7,8]]).reshape((3,2))
display(y)
z = np.array([[1,2,3],[5,7,8]]).reshape((3,2),order='F')
display(z)

## 通用函数ufunc
* abs/fabs 求绝对值
* ceil /floor 向上取整，向下取整
* exp ：求e的几次幂
* log、log2.log10 求对数
* modf：返回数组的整数以及小数部分
* sin/sinh/cos/cosh 正弦 余弦
* sqrt：开方


In [None]:
# 尽快math库中提供了同样的功能，单数，math提供的功能是标量化的版本，如果需要对一组函数
# 进行操作，则需要使用循环
# 而numpy中提供的通用函数，可以进行矢量化的计算，可以认为是math库提供的功能的矢量化的版本


## 统计函数
* mean、sum
* max、min
* argmax。argmin
* std、var
* cousum、cumprod



## 轴（axis）
可以指定axis的参数来改变统计的轴，axis是一个非常重要的参数，关于数组的很多操作运算，都涉及到该参数，轴的取值为0,1,2其中0表示最高的维度，1表示此高的维度，依次类推，同时，轴也可以是负值，表示倒数的第n个维度，例如：-1表示最低的一个维度，在二维的数组中，0标书沿着竖直方向进行操作，1表示沿着水平的方向进行操作，在多维的数组中，轴相对复杂一些，可以认为，是沿着轴所指定的下标变化的方向，进行操作，例如：如果轴是1，则根据第1个下标的变化的方向上进行操作



In [None]:
x = np.array([5,3,6,7,8,9,0])
# 求平均值
a = x.mean()
b = np.mean(x)
print(a is b)
np.sum(x)
np.max(x)
np.min(x)
np.median(x)
np.argmax(x)
np.argmin(x)
np.std(x)
np.var(x)
np.cumsum(x)

In [None]:
# 统计二维数组
x = np.arange(20).reshape((4,5))
display(x)

x.sum()
# 默认的情况下，五参数的统计方法，会对整个数组进行统计，只会得到一个统计结果
# 我们可以指定axis轴的参数来指定具体的统计
# 对于二维数组，如果axis=0，则根据竖直方向进行统计
# 如果axis=1，则根据水平的方向进行统计
x.sum(axis=0)
x.sum(axis=1)

In [None]:
## 统计三维乃至更好维度的情况
# axis轴，轴代表数组的一个维度，数组具有n个维度，轴的取值就是可以是0-n-1
# 轴还可以是支持正负值，表示倒数的第几个维度

In [None]:
x = np.arange(24).reshape((2,3,4))
display(x)

# 统计的方式：
# 当轴的指定为某一个值的时候，统计为：让轴的对应的下标发生改变，然后令其他的轴对应的
# 下标不变，然后将这些得到的元素进行统计
# x.sum(axis=1)
# x.sum(axis=0)


## 随机函数


In [None]:
# 产生随机数（伪随机数），参数指定每个维度的大小，如果没有指定参数，
# 则返回一个标量值,如果指定了参数，则返回的参数指定的维度的随机范围的数
# 随机数值的范围是[0,1)
np.random.rand(2,3)
np.random.rand()

# 功能与np.random.randa是相同的，不同之处在于rand方法，通过多个参数来指定数组的形状
np.random.random(size=(2,3))

# 产生标准的正太分布随机值（均值为0，标准差为1）
np.random.randn(5,5)

# 产生正太分布的随机值，可以指定均值与标准差，默认为标准的正太分布
np.random.normal(loc=3,scale=3.5,size=(3,3))

# 产生的参数范围内的随机整数，包含起始点，不包含终止点
np.random.randint(1,10,size=(5,5))

# 设置随机种子，随机种子的作用是参与产生的随机数的计算，如果随机种子相同，则产生的随机数的序列一定相同的
# 通过随机种子，我们就可以让随机序列得到重视
# np.random.seed(2)
# np.random.random(10)

# 随机打乱数组元素的顺序（洗牌操作）
x = np.arange(10)
np.random.shuffle(x)
print(x)

# 在参数指定的区间产生浮点类型值，包括起始点，不包含终止点
np.random.uniform(-0.8,2.1,size=(3,3))

## 连接和拆分函数
* np.concatenate 对多个数组按照指定轴的方向进行连接
* np.vstack/np.hstack 
* np.split


In [None]:
x = np.array([[1,2,3],[3,6,7]])
y = np.array([[2,7,9],[4,9,0]])
# 将多个ndarray数组进行拼接，返回拼接之后的数组，axis指定拼接的方向：
# axis = 0 竖直的方向进行拼接（默认）
# axis = 1 水平方向上进行拼接
# 进行拼接的必须是形状相同的数组。否则无法拼接成功
np.concatenate((x,y))
np.concatenate((x,y),axis=1)
# np.vstack相当于是concatenate的axis参数为0的情况。
# np.hstack相当于是concatenate的axis参数为1的情况。

In [None]:
x = np.arange(36).reshape((6,6))
display(x)
# 对数组进行切分，aixs 可以指定切分的方向
# axis=0，垂直方向，切分之后，每一段含有若干行
# axis=1，水平方向，切分之后，每一段含有若干列
# 在切分的时候，我们可以指定切分的段数（int类型）此时会按照等分的方式进行切分
# 如果不能整除，将会产生错误
np.split(x,3,axis=0)
np.split(x,3,axis=1)
# 如果要进行不等的切分，我们可以将第2个参数指定为数组类型，数组类型的元素指定切分点
# 假设数组元素为【a,b,c】
## 则会按照如下的方式进行切分：[:a], [a: b], {b:c}, [c:]
np.split(x,[1,3],axis=1)


## 其他的函数和方法

In [None]:
# 如果数组中的元素有任意一个为True（或者可以转换为True）则返回True，否则返回False
np.any([1,2,3])
# 如果数组中所有元素都为True，或者可以转换为true，则返回true，f否则返回False
np.all([1,2,3])

# transpose/T 转置
# 实现轴的颠倒，以前轴为0,1,2,3.。。。n，执行之后：n, n-1, n-2 …… 0
x = np.arange(30).reshape((2,5,3))
display(x)

y = np.transpose(x)
# display(y)

# transpose如果没有参数，则等价于T；
# 除此之外transpose 可以具有参数的，来指定轴的具体替换规则，这样局可以实现更加
# 复杂的轴变化：
# 变化规则：使用前的1轴充当现在的0轴，使用以上的0轴充当现在的1轴，使用以前的2轴，充当现在的2轴
# x.transpose(1,0,2)
# 交换参数指定的两个轴，参数的顺序不重要
x.swapaxes(1,2)

In [None]:
# dot运算
# 数组与标量进行运算，此时会使用数组中的每个元素与标量进行相乘，其实就是相当于*
x = np.array([1,2,3])
y = 3
np.dot(x,y)

# 2.两个操作数都是一维数组，此时会进行对位元素的相乘，然后相加
x = np.array([1,2,3])
y = np.array([2,4,5])
np.dot(x,y)

# 3.两个操作数组都是二维数组，此时会进行对位元素相乘，然后相加,保证左侧矩阵
# 的行数和右侧矩阵的列数相等
x = np.array([[1,2],[3,4],[5,6]])
# print(x)
y = np.array([[2,1,0],[4,3,5]])
# print(y)
np.dot(x,y)

# 4，左侧数据是多维数组，右侧数据是一维数组，此时会使用左侧数组最低维，与
# 右侧数组进行对位相乘在相加的运算，保证左侧数组的最低维的长度与右侧数组的长度相同
x = np.array([[1,2,3],[4,5,6]])
y = np.array([0,1,2])
np.dot(x,y)

# 左侧数组是多维数组，右侧数组是多维数组（左右两侧都不是二维数组），此时会使用左侧
# 数组的最低维与右侧数组的倒数第二维进行对位相乘再相加的运算
# 保证：左侧数组的最低维与右侧数组的倒数第二维长度必须一致

x = np.arange(12).reshape((2,3,2))
print(x)
y = np.array([[1,2],[0,1]])
print(y)
np.dot(x,y)

In [None]:
# 尽管一些方法既可以使用np.方法，访问，也可以使用ndarray方法进行访问，但是二者不全是等价的
# np.sort 与 ndarray.sort，返回None
# np.sort不会对数组进行修改，而是返回一个新创建的对象，新创建的对象是排序之后的结果
# 而ndarray.sort会对原有的数组对象进行修改就地修改，不会返回对象，返回的是None

x = np.array([1,-2,4,10,-5])
# np.sort(x)
x.sort()
print(x)

# argsort 对数组进行排序，返回排序之后的元素，在原数组（排序之前的数组）中的索引
x.argsort()

# unique 去掉数组中重复的元素，同时对数组元素进行排序
np.unique(x)

# np.where 可以认为是简化版if-else的矢量化版本
x = np.array([5,3,6,4])
y = np.array([1,9,-3,5])
# 如果条件为true，返回第一个元素，否则返回第二个元素
np.where(x>y,y,x)
# np.where中di2中形式，即只有条件1个参数，此时会返回不为0值的索引
z = np.array([0,1,2,0,0,3])
np.where(z)

x = np.arange(24).reshape((2,3,4))
print(x)
# 将ndarray数组对象中的数据保存成文件（二进制的形式）如果没有显示执行文件扩展名
# 则默认是.npy
np.save('c:/data',x)
# 从文件中恢复ndarray数组
np.load('c:/data.npy')
# 保存ndarray数组数据保存到文件中（文本形式）
np.savetxt('c:/data2',x,fmt='%d')
np.loadtxt('c:/data2',dtype=np.int32)

# pandas 
基于numpy库，提供很多数据操作与分许的功能

## 两个常用数据类型
* Series
* Dataframe


In [None]:
import pandas as pd
import numpy as np

## Series类型
series 类型类似于numpy的一维数组对象，可以将该类型看做是一组数据与数据相关的标签（索引）联合而构成（带有标签的一维数组对象）

## 创建方式

series常用的创建（初始化方式）
* 列表等可迭代对象
* ndarray 数组对象
* 字典对象
* 标量

In [None]:
# 创建series对象
# 1.通过列表等可迭代对象
s = pd.Series([1,2,3])
s

# 2.通过ndarray数组创建Series
a = np.array([2,6,12])
s = pd.Series(a)
s

# 通过字典创建Seires对象，字典的key指定标签（索引），字典的value指定series的值
# s = pd.Series({'a':50,'b':100,'c':20})

# 通过标量的方式进行创建
s = pd.Series(1)
s = pd.Series(1,index=[5,6,7])
s


## 相互属性
* index
* value
* shape
* size
* dtype

series对象可以通过index与value访问索引与值，其中，我们也可以通过修改index属性来修改series的索引
说明：
* 如果没有指定索引，则会自动生成从0开始的整数索引，也可以使用index显示执行索引
* series 对象index具有name属性，series的name属性可以在创建的时候，通过name参数指定
* 当数值较多的时候，可以通过head与tail访问前/后N个数据
* series对象的数据只能是一维的数组类型

## <font color="green">Series也可以通过索引进行访问数据，与Numpy的ndarray数组对象索引是否存在不同？</font>

In [None]:
# index 返回series对象的索引
# 在我们创建series对象时，可以通过index参数来指定series对象的索引，如果没有显示指定
# 则默认生成从0开始增量为1的索引序列（默认创建rangeindex类型的索引）
s = pd.Series([5,6,7])
s = pd.Series([5,6,7],index=['a','b','c'])

# 我们也可以预先创建index索引类型的对象，然后赋值给index参数
# 创建index对象，然后指派给series 具有的优势在于：此种方式可以指派多个series
# 当以后的索引的对象的值发生变化时候，我们只需要更新索引对象的位置，而无需更新每个
# series对象创建的位置
index = pd.Index(['a','b','c'])
s = pd.Series([1,2,3],index=index)



In [None]:
# value 返货index索引关联的值
s = pd.Series([1,2,3])
s.values

# shape 返回Series的形状，可以可以认为返回的是，Series的value的形状
s.shape
# 返回元素的个数
s.size

In [None]:
# Series的index不仅是可读的，我们也可以对其进行修改
s = pd.Series([1,2,3],index=['a','b','c'])
s.index

# Series 对象与Series的index对象（索引对象）都具有name属性
# 可以在创建Series对象的时候，通过name参数设置name属性，也可以在创建之后
# 对name属性进行设置（修改）
s = pd.Series([1,2,3],index=['a','b','c'],name='Series的name属性')
s.name='Series'
s

# 可以在创建索引对象的时候，通过name参数指定索引对象的名称
# 也可以在创建之后，通过series对象的index属性进行修改
idx = pd.Index(['a','b','c'], name='索引对象名称')
s = pd.Series([1,2,3],index=idx,name='Series名称')
# display(s)
s.index.name='新索引对象的名称'
display(s)

# Series的name属性与Series索引对象的name属性都可以体现在输出中，但是，二者的作用绝不是仅仅在输出中得到提下


In [None]:
s = pd.Series(range(50))
# head 与tail 可以显示指定参数的前后n条记录，如果没有心事指定记录的条数，则默认显示5条
# 注意：参数指定的n，表示最多显示的条数，不是一定会显示的条数
s.head(10)
s.tail(10)
# Series只能是一维的数组，如果创建二维的数组就会报错

In [None]:
# Series 与ndarray 都可以通过索引来访问元素，但是，二者是不等价的
# 1.ndarray 是根据元素位置来定义索引的，当ndarray对象创建完毕的时候，索引也就固定了，我们无法定义ndarray元素的索引
# 2.Series 的索引不是固定的，仅在我们没有显示指定的索引的情况下，会生成从0开始，增量为1的索引
# 我们完全可以修改自定义的索引内容
# 3.ndarray 数组的索引既支持正数，因为支持负数（表示倒数），但是Series的索引仅能访问存在的key，不支持所谓的负值


## Series的相关操作
Series在操作上，与Numpy具有如下的相似性
* 支持广播与矢量化的运算
* 支持索引和切片
* 支持整数数组与布尔数组提取元素

### 运算
Series类型也支持矢量化的计算与广播运算，计算规则与Numpy数组的规则相同，同时Numpy的一些函数，也适用于Series类型，例如：np.mean np.sum等
多个Series运算的时候，会根据索引进行对齐，当索引无法对齐的时候，结果为NaN值（缺失值）
说明：
* 我们可以通过pandas或Series的isnull 或notnull 来判断数据的是否确实
* 除了运算符以外，我们也可以使用Series对象提供的相关方法进行运算【可以指缺失的填充值】
* 尽管Numpy的一些函数，也适用于Series类型，但Series与ndarray数组对于空值NaN的计算处理方式上式不同的，【Numpy的计算，会得到NaN的值，而Seres会忽略NaN】

In [None]:
# Series 也支持广播和矢量化的运算，但是Series的矢量化计算与ndarray的矢量化计算的
# 规则是不同的，对于ndarray 是根据元素的位置（索引）进行对位运算
# Series 是根据标签索引进行对位运算的

s = pd.Series([1,2,3])
s2 = pd.Series([4,5,6],index=[0,3,5])
s + s2
# 如果Series在运算时，索引无法对齐，就会产生空值（NaN）
# Series对象也提供了相应的运算方法，我们可以通过调用相关的运算方法来进行计算
# 当索引无法对齐的时候，可以使用fill_value参数来指定填充值

# 运算符计算与使用方法计算的对比：
# 从简便性的角度来讲，运算符比使用方法更简单，但是，使用方法可以提供比运算符
# 更加灵活的计算规则
s.add(s2,fill_value=1)

# np.mean,no.sum也适用于Series类型，但是，当计算ndarray数组类型与Series类型时候，表现不同
# 当存在NaN时候，归于ndarray，计算会产生空值
# 对于Series，会忽略空值
a = np.array([1,2,3,4,np.NaN])
b = pd.Series([3,4,5,6,np.NAN])
# 此处得出的结果是nan 因为ndarray数组在计算的时候，把nan也计算在内了
np.sum(a)
np.sum(b)


In [None]:
# isnull nonull 可以用来检测缺失值，会将np.nan  float('NaN'),None 视为缺失值
s = pd.Series([np.NAN,float('NaN'),None,3])
# 检测数组中有多少空值
np.sum(s.isnull())

# s.notnull()


## 索引

### 标签索引和位置索引
如果Series对象的index值为非数值类型，通过[索引]访问元素，，索引既可以是标签索引，又可以是位置索引，这回在一定程度上造成混淆，我们可以通过
* loc 仅通过标签索引进行访问
* iloc 仅通过位置索引进行访问
这样可以更加有针对性的去访问

### 整数数组索引与布尔数组索引
Series 也支持使用整数数组与布尔数组进行索引，与Numpy数组相同，二者返回的是原数组的数据的拷贝

说明：
与ndarray的整数索引不太相同，Series的整数数组索引，既可以是标签数组索引，也可以是位置数组索引

In [None]:
# Series 也支持索引操作 
# 索引在Series 中，可以分为两类：
# 1.标签索引：在创建Series对象时，通过index所指定的索引
# 2.位置索引：类似ndarray，根据元素位置所定义的编号索引

# 当index元素的类型是数值类型的时候，鄙视Series仅支持标签索引，不支持位置索引
# 当index元素的类型是非数值类型的时候，此时Series及支持标签索引，也支持位置索引
# 这回造成极大的混淆，故不建议通过s[索引]的方式进行访问
# 建议使用loc与iloc进行元素的访问
# loc与iloc的优势在于，访问元素更具有针对性，不会出现混淆
# loc仅支持标签索引
# iloc仅支持位置索引

s = pd.Series([1,2,3],index=[5,8,10])
s1 = pd.Series([3,4,6],index=['a','b','c'])
s.loc[8]
s1.iloc[0]

In [None]:
# 3.通过索引数组与布尔数组提取元素
s = pd.Series([1,2,3,4,5],index=list('abcde'))
s.loc[['a','b']]
s.iloc[0]
s.loc['a']

# 4.在Series中，通过索引提取元素，得到的依然还是一个Series，该Series与原Series
# 没有关联，这点ndarray在通过索引数组提取元素时候的表现相同
t = s.iloc[[-1,-2]]
t.loc['e'] = 1000
# display(t)
# display(s)

# 5.Series也支持通过布尔数组提取元素
t = s[s>2]
t.loc['c'] = 3000
display(t)
display(s)

# 总结：
# 通过索引数组与布尔数组提取元素，返回的数据是原对象的拷贝
#一个对象的修改不会对另外一个对象造成影响（适用于ndarray与Series）

## 切片
Series 也支持切片访问一个区间的元素，与Numpy的数组相同，切片返回的是原数组数据的视图


In [None]:
s = pd.Series([4,5,6],index=['c','f','g'])
s.iloc[0:2]
s.loc['f':'g']

# 总结：Series与Numpy的ndarray数组对西欧in阿甘的是否存在不同的地方
# ndarray仅支持位置切片，不支持标签索引的切片，而Series支持标签索引的切片
# 使用标签索引切片和位置索引切片，二者的表现是不同的，使用标签索引进行切片，既包含
# 起止点，也包含终止点，使用位置索引切片，只包含起止点，不包含终止点

## Series的CRUD
Series索引-数值的CRUD操作
* 获取值
* 修改值
* 增加索引-值
* 删除索引-值


In [None]:
s = pd.Series([1,2,3,4],index=['a','b','c','d'])
# 获取值：可以通过索引或切片获取Series中的值，建议使用loc与iloc
s.loc['a']

# 修改值：也可以通过键值增加
s.loc['b']=100

# 增加索引-值
# Series增加值与修改值的语法是相同的，到底是增加还是修改，取决于我们提供的索引shifou
# 存在，如果存在则修改，不存在则增加，（这点和字典类似）
s.loc['e']=300
s

# 删除索引-值
# del s['a']
# s.drop('b')
# s
#注意：drop方法默认的情况下：并没有修改原有的对象，而是返回一个新的对象
# 解决方案：
# 1.将返回的对象再次赋值为原对象，但是，此时，依然还是创建了一个新的对象
# 占用额外的空间
# 2.不创建新的对象，直接在现有的对象上进行修改，此时，可以将参数inplace
# 指定为True，inplace表示对象进行就地修改，而不是新建对象，inplace在Pandas提供的
# 方法中，默认的均为False

#通过pop删除索引-值，pop方法会删除参数指定的索引和值，通过返回该值
s.pop('a')
s

In [None]:
s = pd.Series([1,2,3,4],index=['a','b','c','d'])
del s['a']
s.drop('b',inplace=True)
s

# DataFrame类型
DateFrame是一个多种维度的数据类型，也可以是一维的数据类型，因为通常使用二维数据，因此，我们可以将Dataframe理解成类似的excel表格，由多列组成，每个列的类型可以不同
因为DataFrame是多维数据类型，因此Dataframe既有行索引，也有列索引

## 创建方式
我们可以使用如下的方式创建（初始化）Dataframe类型的对象
* 二维数据结构（列表，ndarray，Dataframe）类型
* 字典类型，key为列名，value为一维数据结构（列表，ndarray数组，Series等）
说明：
* 如果没有显示指定行与类索引，则会自动生成以0开始的整数值索引，我们可以在创建Dataframe对象时候，通过index与columns参数指定
* 可以head，tail访问前后/n行记录

In [None]:

import numpy as np
import pandas as pd 


In [None]:
# 1.通过一个二维数组来创建Dataframe类型
df = pd.DataFrame([[1,2,3],[2,3,4]])
df
type(df)
# 对于一个对象，使用解释器求值与使用print方法输出，结果（效果）可能是不同的
# 对于jupyter notebook 部分对象（例如dataframe）在进行解释器求值的时候，效果可能比print更加友好
# 但是，适应解释器进行求值，只能展示对周一个对象的求值结果

# 为什么要使用display？
# 使用display 可以比使用print呈现的更加友好（部分对象）同时，使用displaay方法
# 还可以同时输出多个对象（直接求值只能展示最后一个对象的结果）
# 说明：display 是ipython扩展函数，不能再python解释器上使用
# display(df)

# 2.使用一个字典来创建DataFrame类型
# 字典的中每一个键值对代表dataframe中的一列，每个键值对的key用来指定列标签，键值对的value
# 用来指定该列的值

df  = pd.DataFrame({0:[1,4],1:[2,3],2:[5,6]})
# display(df)

# 3.字典中还可以使用标量的形式，标量会根据实际情况进行广播
df = pd.DataFrame({0:[3,4],1:100})
# display(df)
# 

# 4.由于Dataframe是二维结构，因此，具有两个索引--行索引和列索引
# 我们可以在创建dataframe对象时候，通过index来指定行索引，通过columns来指定列索引
# 如果没有指定索引，会创建一个从0开始，增量为1的索引
df = pd.DataFrame([[4,5,6],[20,30,40]],index=['a','b'],columns=['f','g','h'])
# display(df)
# 5.通过head与tail方法访问Dataframe前后的N条记录，N由参数指定，如果没有指定N，则N默认为5
# N表示最多显示的记录条数，而不是一定会显示的记录条数
df = pd.DataFrame(np.random.randint(1,11,size=(10,4)))
display(df)

# 6.sample 随机抽样方法，从Dataframe数据集中随机抽取参数指定数量的记录，如果没有指定抽样的数量，则默认值为1
# 默认的情况下，sample实行的是不放回抽样，此时，我们选择的记录数不能大于样本的数量
# 我们可以通过设置replace=True指定为放回抽样，replace表示是否进行放回抽样
df.sample(1,replace=True)

# 7.我们可以设置random_state，设置随机种子（就是我们之前学习的seed）以便于我们可以多次产生
# 相同的随机序列
df.sample(1,replace=True,random_state=1)

## 相关属性
* index
* columns
* values
* shape
* ndim
* dtype

说明：
恶意通过index访问行索引，columns访问列索引，values访问数据，其中index与columns也可以进行设置更改
可以为dataframe的index与columns属性指定name属性值
dataframe的数据不能拿超过二维

In [None]:
df = pd.DataFrame([[1,2,3,9],[4,5,8,6],[3,4,5,6]])
#1. index获取或设置行索引
df.index
df.index = ['a','b','c']
df.index

# 2.columns 获取列索引
df.columns
df.columns = ['d','f','g','h']
df.columns

# 3.values dataframe 所关联的值（二维的ndarray数组）
df.values

# 4. shape 返回dataframe的形状
df.shape

# 5.len 也可以通过len获得datafrme的行数
len(df)

#6.ndim 返回dataframe的维度
df.ndim

# 7.dataframe 与ndarray 数组在类型上的差异性
#对于ndarray 数组，所有的元素都是同一个类型（整个数组只有一个类型）
# 对于dataframe ，只要求每一列中所有的元素都是相同的类型，列和列之间可以是不同的类型类似excel表格

# 8.dtypes 返回dataframe中每一列的类型
df = pd.DataFrame([[2,3,4],[4,5,6]],columns=['a','c','d'])
display(df)
type(df.dtypes)
# 可以获得每列的数据类型
df.dtypes.loc['c']

# 9.Dataframe 的index与columns （索引对象），可以设置name属性（表示索引对象的名称）
df = pd.DataFrame([[1,2,3],[2,4,5]],columns=['s','g','h'],index=['v','b'])
display(df)
df.index.name = '行索引的名称'
df.columns.name = '列索引的名称'
display(df)

# datafame 的数据不能超过二维的

## DataFrame相关操作
假设df为dataframe的类型的对象


### 列操作
* 获取列
df[列索引]
df.列索引
* 增加（修改）列：
df[列索引]=列数据
* 删除列
del.df[列索引]
df.drop(列索引)
df.drop(列索引或数组)

### 行操作
* 获取行
df.loc 根据标签索引进行索引
df.iloc  根据位置标签进行索引
df.ix 或者索引，先根据标签索引，如果没有找到，则根据位置进行索引（前提是标签不是数值类型）
* 增加行
append 【多次使用append增加行会比连接计算量更大，可以考虑使用pd.concat来代替】
* 删除行
df.drop(行索引或数组)


### 行列混合操作
* 先获取行，在获取列
* 先获取列在获取行

说明：
* drop 方法既可以删除行，也可以删除列，通过axis指定轴的方向{可以原地修改，也可以返回修改之后的结果}
* 通过da[索引]访问时对列进行操作
* 通过df[切片]访问时对行进行操作【先按标签，然后按索引访问，如果标签是数值类型，则仅会按标签进行访问】
* 通过布尔索引是对行进行操作
* 通过哦数组索引，是对列进行的操作


In [None]:
# df = pd.DataFrame([[1,2,3],[2,3,4]],columns=['a','c','f'])
# display(df)
# df['c']
#推荐使用上面的方式进行列索引的访问，使用上面的方式记性访问的时候，不会出现
# 混淆的问题，因为这种访问方式仅支持标签索引，不支持位置索引
# df[0]   报错

# 2.增加列和修改列的语法使用一样的，增加还是修改，取决于我们制定的列标签是否存在
# df['r'] = [4,5]
# df

# 3.通常情况下，我们对列进行修改或增加，不会人为进行指定（尤其是大量数据的情况下）
# 通常通过计算的解雇饿哦得出的
# df['a'] = df['a']+1
# df

# 4. 删除列
# del df['a']
# df
# df.pop('c')
# df

#4.inplace 返回细节
# 当inplace 为True 时，没有明确的返回值，（返回值为None），因为此时没有创建新的
# 对象，不需要返回任何内容，我们可以使用原对象就能获得修改之后的结果
# 当inplace 为False，具有明确的返回值（返回新创建的对象）新创建的对象为修改之后的结果
# df.drop(0,axis=0,inplace=True)
# df

# 5.dataframe 对行进行操作
df = pd.DataFrame([[1,2,3],[4,5,6]],index=['2018','2019'],columns=['苹果','香蕉','梨子'])
# display(df)
# 1.获取行
# 通过loc 或者iloc
# df.loc['2018']
# 从中可以看出df.iloc[0:1] 得到的数据还是Dataframe的类型，是其中的一列数据
# df.iloc[1] 可以看出，它得到的是Series类型的数据
# display(df.iloc[0:1])
# display(df.iloc[1])


# 5、Series 的name属性作用
# series 可以作为Dataframe的一行或一列，而Series的name属性就是该行或者该列的标签
# append加入行的时候，需要根据索引进行对齐，如果索引无法对齐，会产生NaN
# s = pd.Series([1,2,5],index=['苹果','香蕉','梨子'],name='2017')
# append 不是原地进行修改，所以需要使用变量进行接出来
s = pd.Series([1,2,5],index=['苹果','香蕉','梨子'],name='2017')
# 设置ignore_index 表示是都忽略原有的索引（忽略行索引，但是列索引没办法忽略）
# 当ignore_index 设置为True的时候，会重新生成行索引，忽略以前的索引，生成从0开始增量为1的索引
# 当Series 没有name属性的时候，ignore_index设置为True的时候有意义
# erify_integrity 设置为True的时候，如果出现索引名字重复的时候，会报错
df = df.append(s,verify_integrity=True)
display(df)


# 6.当我们合并大量的数据的时候，建议使用concat方法，进行Dataframe的合并（性能更好一些）
# df = pd.DataFrame([[1, 2], [3, 4]])
# df2 = pd.DataFrame([[2, 4], [3, 5]])
# pd.concat((df,df2),axis=1,ignore_index=True)

# 行删除
# drop 方法既可以删除行，也可以删除列，行列取决于axis的值，axis=0，删除行，axis=1 删除列
df = pd.DataFrame([[1,2],[3,4]])
display(df)
# df.drop(0,axis=0)
# 也可以同时删除多行（列）,可以在列表里面指定元素，然后用来设置行的索引
df.drop([0,1],axis=0,inplace=True)
df

In [None]:
# 1.行与列的混合操作，先获取行，在获取列
df = pd.DataFrame(np.arange(30).reshape((5,6)))
display(df)
df.loc[0].loc[1]
# 2.先获取列再获取行
df[2].loc[0]

# 3.获取多行或者多列
# 获取多行，可以使用切片，索引数组
df.loc[0:2]
df.loc[[0,4]]
# 4.df[切片]即可以是标签索引，也可以是位置索引，容易造成混淆，因此，不建议这样使用
# df[0:2]
df.loc[:,2:4]
df.loc[:,[2,5]]

# 5.在获取Dataframe行与列的时候，注意下返回类型
# 在我们使用切片的时候，返回的依然是一个Dataframe类型，（即使切片返回的是单行数据）
# 当我们使用单一索引的时候，返回的是Series类型的

# 6.ix 首先根据标签索引访问元素，然后再根据位置索引访问元素，这回造成混淆，ix已经不建议使用了
df.ix[0]

# 7.通过布尔数组提取元素，是针对行进行操作
df = pd.DataFrame([[1,2,3,4],[4,5,6,7]],index=('a','b'))
df.loc['a']>0

# 

## Dataframe 结构
dataframe的一行或者一列，都是Series类型的对象，对于行来说，Series对象的name属性值就是行索引的名称，其内部元素的值，就是对应的列索引的名称，对于列来说，Series对象的name属性值就是列索引名称，其内部的元素就是对应的列索引的名称

In [None]:
df = pd.DataFrame([[1,2,3,4],[3,4,5,6]],index=('a','b'))
display(df)
display(df[0])
display(df.loc['a'])
s = pd.Series([1,2,3],index=('a','b','c'),name='Series')
display(s)
# df[0]


## Dateframe 运算
dataframe的一行或一列都是Series类型的对象，因此，Dataframe可以近似看做是多行或多列的Series构成的，Series对象支持很多操作，对于Dataframe对象也同样使用，我们可以参考之前的Series对象的操作

* 转置
* Dataframe进行运算的时候，会根据行索引与列索引进行对齐，当索引无法匹配时候，产生空值NaN，如果不想产生空值，可以使用Dataframe提供的运算函数来代替运算符计算，通过fill_value 参数来指定填充值
* DataFrame与Series混合运算（默认Series索引匹配Dataframe的列索引，然后进行广播，可以通过Dataframe对象的运算方法的axis参数，指定匹配方式（匹配索引还是列索引））


In [180]:
df = pd.DataFrame([[1,2],[3,4]])
# display(df)

1.# Dataframe数据的转置
# display(df.T)
df2 = pd.DataFrame([[0,-2],[13,24]],columns=[1,2],index=[1,2])
# display(df2)
df+df2
# fill_value 仅适用于两个Dataframe中，有一个缺失的情况
# 如果两个Dataframe都确实，则结果依然是NAN
df.add(df2,fill_value=10)

2.# Dataframe 可以与Series进行混合运算，默认情况下，Series会匹配Dataframe的列索引
df = pd.DataFrame(np.arange(12).reshape((2,6)))
display(df)
s = pd.Series([5,6,7])
display(s)
# 指定让Series匹配Dataframe行索引,Series会进行广播运算，然后对位进行相加
df.add(s,axis=0)

Unnamed: 0,0,1,2,3,4,5
0,0,1,2,3,4,5
1,6,7,8,9,10,11


0    5
1    6
2    7
dtype: int64

Unnamed: 0,0,1,2,3,4,5
0,5.0,6.0,7.0,8.0,9.0,10.0
1,12.0,13.0,14.0,15.0,16.0,17.0
2,,,,,,


## 排序
series与dataframe对象可以使用sort_index方法对索引进行排序。dataframe对象在排序时候，还可以通过axis参数来指定轴（行索引还是列索引），也可以通过ascending参数指定升序还是降序

### 值排序
Series与Dataframe对象可以是欧阳sort_value方法对值进行排序


In [181]:
df = pd.DataFrame([[1,2,0],[3,2,5],[4,3,6]],index=[2,0,1],columns=[2,0,1])
display(df)
# 对索引进行排序，axis指定行索引（0）还是列索引（1），默认是0（行索引）
# 只是按照索引进行排序，索引对应的内容并不进行排序
df.sort_index(axis=0)
# 对值进行排序，by按照哪个索引（行或者列进行排序）axis=0.竖直方向排序
# axis=1，水平方向进行排序
df.sort_values(by=1,axis=0)

Unnamed: 0,2,0,1
2,1,2,0
0,3,2,5
1,4,3,6


Unnamed: 0,2,0,1
2,1,2,0
0,3,2,5
1,4,3,6


## 索引对象
Series（dataframe）的index或者Dataframe的columns就是一个索引对象
* 索引对象可以向数组那样进行索引访问
* 索引对象是不可修改的

In [None]:
df = pd.DataFrame([[1,2,3],[4,5,6]])
display(df)
t = df.index
t
# 此时，并没有去改变索引对象，而仅仅是绑定了一个新的对象而已
df.index = ['a','b']
display(df)
display(t is df.index)
# 错误，索引对象不支持修改
df.index[0] = 'e'


## 统计相关方法
* mean/sum/count
* max/min
* cumsum/cumprod
* argmax/argmin
* idmax/idmin
* var/std
* corr/cov

In [187]:
a = np.arange(16).reshape((4,4))
display(a)
# ndarray 数组，如果没有显示指定axis，则axis默认为None 统计整个数组的数据
# axis=0
a.sum(axis=0)
df = pd.DataFrame(a)
# display(df)
# Dataframe ,如果没有显示指定，则axis默认为0，不会统计整个Dataframe的数据
df.sum()

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

0    24
1    28
2    32
3    36
dtype: int64

In [184]:
a = np.arange(16).reshape((4,4))
display(a)
# ndarray 数组，如果没有显示指定axis，则axis默认为None，统计整个数组的数据
# axis=0是按照列进行相加，axis=1是按照列进行相加
a.sum(axis=0)


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

array([24, 28, 32, 36])

In [None]:
import numpy as np
import pandas as pd

data1 = pd.read_csv(r'data.csv',header=None)
data1.sample(2)

In [None]:
X ,y = data1.iloc[:,:-1],data1.iloc[:,-1]
X = pd.get_dummies(X)
# display(X)
pd.set_option("max_columns", 100)
X.head(2)

In [None]:
from datetime import datetime
def time_t(data):
    d1 = datetime.strptime('2012-03-05 17:41:20', '%Y-%m-%d %H:%M:%S')
    d2 = datetime.strptime(data,'%Y-%m-%d %H:%M:%S')
    return d1-d2


a = pd.Series(['2012-03-02 17:41:20','2012-03-04 17:41:20'] )

a = a.apply(time_t)
display(a)

In [None]:
 def t(item):
    print(item)
    item = item.replace('厘米','')
    return int(item)
    s= pd.Series(['175厘米','180厘米','185厘米'])
    s = s.apply(t)