# pandas

## 一、数据结构介绍
在pandas中有两类非常重要的数据结构，即序列Series和数据框DataFrame。Series类似于numpy中的一维数组，除了通吃一维数组可用的函数或方法，而且其可通过索引标签的方式获取数据，还具有索引的自动对齐功能；DataFrame类似于numpy中的二维数组，同样可以通用numpy数组的函数和方法，而且还具有其他灵活应用

## 1、Series的创建
### 1）通过一维数组创建序列

In [1]:
import numpy as np
import pandas as pd
arr1 = np.arange(10)
print(arr1)
print(type(arr1))
print('--------------------')
s1 = pd.Series(arr1)
print(s1)
print(type(s1))

[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'>
--------------------
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64
<class 'pandas.core.series.Series'>


### 2）通过字典的方式创建序列

In [2]:
dic1 = {'a':10, 'b':20, 'c':30, 'd':40, 'e':50}
print(dic1)
print(type(dic1))
print('--------------------')
s2 = pd.Series(dic1)
print(s2)
print(type(s2))

{'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}
<class 'dict'>
--------------------
a    10
b    20
c    30
d    40
e    50
dtype: int64
<class 'pandas.core.series.Series'>


### 3）通过DataFrame中的某一行或某一列创建序列

## 2、DataFrame的创建

### 1）通过二维数组创建数据框

In [3]:
arr2 = np.array(np.arange(12)).reshape(4, 3)
print(arr2)
print(type(arr2))
print('------------------')
df1 = pd.DataFrame(arr2)
print(df1)
print(type(df1))

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
<class 'numpy.ndarray'>
------------------
   0   1   2
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
<class 'pandas.core.frame.DataFrame'>


### 2）通过字典的方式创建数据框

In [4]:
dic2 = {'a':[1,2,3,4],'b':[5,6,7,8],'c':[9,10,11,12],'d':[13,14,15,16]}
print(dic2)
print(type(dic2))
print('-------------------------')
df2 = pd.DataFrame(dic2)
print(df2)
print(type(df2))

{'a': [1, 2, 3, 4], 'b': [5, 6, 7, 8], 'c': [9, 10, 11, 12], 'd': [13, 14, 15, 16]}
<class 'dict'>
-------------------------
   a  b   c   d
0  1  5   9  13
1  2  6  10  14
2  3  7  11  15
3  4  8  12  16
<class 'pandas.core.frame.DataFrame'>


In [5]:
dic3 = {'one':{'a':1,'b':2,'c':3,'d':4},'two':{'a':5,'b':6,'c':7,'d':8},'three':{'a':9,'b':10,'c':11,'d':12}}
print(dic3)
print(type(dic3))
print('------------------------')
df3 = pd.DataFrame(dic3)
print(df3)
print(type(df3))

{'one': {'a': 1, 'b': 2, 'c': 3, 'd': 4}, 'two': {'a': 5, 'b': 6, 'c': 7, 'd': 8}, 'three': {'a': 9, 'b': 10, 'c': 11, 'd': 12}}
<class 'dict'>
------------------------
   one  two  three
a    1    5      9
b    2    6     10
c    3    7     11
d    4    8     12
<class 'pandas.core.frame.DataFrame'>


### 3）通过数据框的方式创建数据框

In [6]:
df4 = df3[['one','three']]
print(df4)
print(type(df4))
print('------------------------')
s3 = df3['one']
print(s3)
print(type(s3))

   one  three
a    1      9
b    2     10
c    3     11
d    4     12
<class 'pandas.core.frame.DataFrame'>
------------------------
a    1
b    2
c    3
d    4
Name: one, dtype: int64
<class 'pandas.core.series.Series'>


## 二、数据索引index
序列也好，还是数据框也好，对象的最左边总有一个非原始数据对象，这个是什么呢？
序列或数据框的索引有两大用处，一个是通过索引值或索引标签获取目标数据，另一个是通过索引，可以使序列或数据框的计算、操作实现自动化对齐

### 1、通过索引值或索引标签获取数据

In [7]:
s4 = pd.Series(np.array([1,1,2,3,5,8]))
print(s4,'\n')
#如果不给序列一个指定的索引值，则序列自动生成一个从0开始的自增索引。可以通过index查看序列的索引：
print('#如果不给序列一个指定的索引值，则序列自动生成一个从0开始的自增索引。可以通过index查看序列的索引：')
print(s4.index, '\n')
#我们为序列设定一个自定义的索引值：
print('我们为序列设定一个自定义的索引值：')
s4.index = ['a','b','c','d','e','f']
print(s4, '\n')
#序列有了索引，就可以通过索引值或索引标签进行数据的获取：
print('序列有了索引，就可以通过索引值或索引标签进行数据的获取：', '\n')
print(s4[3])
print(s4['e'])
print(s4[[1,3,5]])
print(s4[['a','b','d','f']])
print(s4[:4])
print(s4['c':])
print(s4['b':'e'])

0    1
1    1
2    2
3    3
4    5
5    8
dtype: int64 

#如果不给序列一个指定的索引值，则序列自动生成一个从0开始的自增索引。可以通过index查看序列的索引：
RangeIndex(start=0, stop=6, step=1) 

我们为序列设定一个自定义的索引值：
a    1
b    1
c    2
d    3
e    5
f    8
dtype: int64 

序列有了索引，就可以通过索引值或索引标签进行数据的获取： 

3
5
b    1
d    3
f    8
dtype: int64
a    1
b    1
d    3
f    8
dtype: int64
a    1
b    1
c    2
d    3
dtype: int64
c    2
d    3
e    5
f    8
dtype: int64
b    1
c    2
d    3
e    5
dtype: int64


??千万注意：如果通过索引标签获取数据的话，末端标签所对应的值是可以返回的！在一维数组中，就无法通过索引标签获取数据，这也是序列不同于一维数组的一个方面。

### 2、自动化对齐
如果有两个序列，需要对这两个序列进行算术运算，这时索引的存在就体现的它的价值了—自动化对齐.

In [8]:
s5 = pd.Series(np.array([10,15,20,30,55,80]),index = ['a','b','c','d','e','f'])
print(s5)
s6 = pd.Series(np.array([12,11,13,15,14,16]),index = ['a','c','g','b','d','f'])
print(s6)

print(s5 + s6)
print(s5/s6)

a    10
b    15
c    20
d    30
e    55
f    80
dtype: int64
a    12
c    11
g    13
b    15
d    14
f    16
dtype: int64
a    22.0
b    30.0
c    31.0
d    44.0
e     NaN
f    96.0
g     NaN
dtype: float64
a    0.833333
b    1.000000
c    1.818182
d    2.142857
e         NaN
f    5.000000
g         NaN
dtype: float64


由于s5中没有对应的g索引，s6中没有对应的e索引，所以数据的运算会产生两个缺失值NaN。注意，这里的算术结果就实现了两个序列索引的自动对齐，而非简单的将两个序列加总或相除。对于数据框的对齐，不仅仅是行索引的自动对齐，同时也会自动对齐列索引（变量名）

数据框中同样有索引，而且数据框是二维数组的推广，所以其不仅有行索引，而且还存在列索引，关于数据框中的索引相比于序列的应用要强大的多，这部分内容将放在数据查询中讲解。

## 三、利用pandas查询数据
这里的查询数据相当于R语言里的subset功能，可以通过布尔索引有针对的选取原数据的子集、指定行、指定列等。我们先导入一个student数据集：

student = pd.io.parsers.read_csv('C:\\Users\\admin\\Desktop\\student.csv')
查询数据的前5行或末尾5行

student.head()
student.tail()
查询指定的行

student.ix[[0,2,4,5,7]] #这里的ix索引标签函数必须是中括号[]
查询指定的列

student[['Name','Height','Weight']].head() #如果多个列的话，必须使用双重中括号
也可以通过ix索引标签查询指定的列

student.ix[:,['Name','Height','Weight']].head()
查询指定的行和列

student.ix[[0,2,4,5,7],['Name','Height','Weight']].head()
以上是从行或列的角度查询数据的子集，现在我们来看看如何通过布尔索引实现数据的子集查询。
查询所有女生的信息

student[student['Sex']=='F']
查询出所有12岁以上的女生信息

student[(student['Sex']=='F') & (student['Age']>12)]
查询出所有12岁以上的女生姓名、身高和体重

student[(student['Sex']=='F') & (student['Age']>12)][['Name','Height','Weight']]
上面的查询逻辑其实非常的简单，需要注意的是，如果是多个条件的查询，必须在&（且）或者|（或）的两端条件用括号括起来。

## 四、利用pandas查询数据
pandas模块为我们提供了非常多的描述性统计分析的指标函数，如总和、均值、最小值、最大值等，我们来具体看看这些函数：
首先随机生成三组数据

In [9]:
np.random.seed(1234)
d1 = pd.Series(2*np.random.normal(size = 100)+3)
d2 = np.random.f(2,4,size = 100)
d3 = np.random.randint(1,100,size = 100)
#print(d1)
#print(d2)
#print(d3)
print(d1.count()) #非空元素计算
print(d1.min()) #最小值
print(d1.max()) #最大值
print(d1.idxmin()) #最小值的位置，类似于R中的which.min函数
print(d1.idxmax()) #最大值的位置，类似于R中的which.max函数
print(d1.quantile(0.1)) #10%分位数
print(d1.sum()) #求和
print(d1.mean()) #均值
print(d1.median()) #中位数
#print(d1.mode()) #众数
print(d1.var()) #方差
print(d1.std()) #标准差
print(d1.mad()) #平均绝对偏差
print(d1.skew()) #偏度
print(d1.kurt()) #峰度
print(d1.describe()) #一次性输出多个描述性统计指标
print('必须注意的是，descirbe方法只能针对序列或数据框，一维数组是没有这个方法的')

100
-4.1270333212494705
7.781921030926066
81
39
0.6870184644069928
307.0224566250873
3.070224566250874
3.204555266776845
4.005609378535085
2.0014018533355777
1.5112880411556109
-0.6494780760484293
1.2201094052398012
count    100.000000
mean       3.070225
std        2.001402
min       -4.127033
25%        2.040101
50%        3.204555
75%        4.434788
max        7.781921
dtype: float64
必须注意的是，descirbe方法只能针对序列或数据框，一维数组是没有这个方法的


In [10]:
print('这里自定义一个函数，将这些统计描述指标全部汇总到一起:')

def stats(x):
    return pd.Series([x.count(),x.min(),x.idxmin(),
    x.quantile(.25),x.median(),
    x.quantile(.75),x.mean(),
    x.max(),x.idxmax(),
    x.mad(),x.var(),
    x.std(),x.skew(),x.kurt()],
    index = ['Count','Min','Whicn_Min',
    'Q1','Median','Q3','Mean',
    'Max','Which_Max','Mad',
    'Var','Std','Skew','Kurt'])
print(stats(d1))


这里自定义一个函数，将这些统计描述指标全部汇总到一起:
Count        100.000000
Min           -4.127033
Whicn_Min     81.000000
Q1             2.040101
Median         3.204555
Q3             4.434788
Mean           3.070225
Max            7.781921
Which_Max     39.000000
Mad            1.511288
Var            4.005609
Std            2.001402
Skew          -0.649478
Kurt           1.220109
dtype: float64


In [11]:
print('在实际的工作中，我们可能需要处理的是一系列的数值型数据框，' + '\n'
      '如何将这个函数应用到数据框中的每一列呢？可以使用apply函数，这个非常类似于R中的apply的应用方法。')
print('将之前创建的d1,d2,d3数据构建数据框:')

df = pd.DataFrame(np.array([d1,d2,d3]).T,columns=['x1','x2','x3'])
print(df.head())
print(df.apply(stats))
print('非常完美，就这样很简单的创建了数值型数据的统计性描述。如果是离散型数据呢？' + '\n'
      '就不能用这个统计口径了，我们需要统计离散变量的观测数、唯一值个数、众数水平及个数。你只需要使用describe方法就可以实现这样的统计了。')

在实际的工作中，我们可能需要处理的是一系列的数值型数据框，
如何将这个函数应用到数据框中的每一列呢？可以使用apply函数，这个非常类似于R中的apply的应用方法。
将之前创建的d1,d2,d3数据构建数据框:
         x1        x2    x3
0  3.942870  1.369531  55.0
1  0.618049  0.943264  68.0
2  5.865414  0.590663  73.0
3  2.374696  0.206548  59.0
4  1.558823  0.223204  60.0
                   x1          x2          x3
Count      100.000000  100.000000  100.000000
Min         -4.127033    0.014330    3.000000
Whicn_Min   81.000000   72.000000   76.000000
Q1           2.040101    0.249580   25.000000
Median       3.204555    1.000613   54.500000
Q3           4.434788    2.101581   73.000000
Mean         3.070225    2.028608   51.490000
Max          7.781921   18.791565   98.000000
Which_Max   39.000000   53.000000   96.000000
Mad          1.511288    1.922669   24.010800
Var          4.005609   10.206447  780.090808
Std          2.001402    3.194753   27.930106
Skew        -0.649478    3.326246   -0.118917
Kurt         1.220109   12.636286   -1.211579
非常完美，就这样很简单的创建了数值型数据的统计性描述。如果是离散型数据

student['Sex'].describe()

In [12]:
print('除以上的简单描述性统计之外，还提供了连续变量的相关系数（corr）和协方差矩阵（cov）的求解，这个跟R语言是一致的用法')
print(df.corr(), '\n')

print('关于相关系数的计算可以调用pearson方法或kendell方法或spearman方法，默认使用pearson方法。')
print(df.corr('spearman'), '\n')

print('如果只想关注某一个变量与其余变量的相关系数的话，可以使用corrwith,如下方只关心x1与其余变量的相关系数:')
print(df.corrwith(df['x1']), '\n')
      
print('数值型变量间的协方差矩阵')
print(df.cov(), '\n')

除以上的简单描述性统计之外，还提供了连续变量的相关系数（corr）和协方差矩阵（cov）的求解，这个跟R语言是一致的用法
          x1        x2        x3
x1  1.000000  0.136085  0.037185
x2  0.136085  1.000000 -0.005688
x3  0.037185 -0.005688  1.000000 

关于相关系数的计算可以调用pearson方法或kendell方法或spearman方法，默认使用pearson方法。
         x1        x2        x3
x1  1.00000  0.178950  0.006590
x2  0.17895  1.000000 -0.033874
x3  0.00659 -0.033874  1.000000 

如果只想关注某一个变量与其余变量的相关系数的话，可以使用corrwith,如下方只关心x1与其余变量的相关系数:
x1    1.000000
x2    0.136085
x3    0.037185
dtype: float64 

数值型变量间的协方差矩阵
          x1         x2          x3
x1  4.005609   0.870124    2.078596
x2  0.870124  10.206447   -0.507512
x3  2.078596  -0.507512  780.090808 



# ***我是做图像的，后边用的时候再看***

https://www.jianshu.com/p/191d1e21f7ed

## 五、类似于SQL的操作
## 六、缺失值处理
## 七、数据透视表
## 八、多层索引的使用