# Pandas

## 导入
`import pandas as pd`

`from pandas import DataFrame`

`from pandas import Series`

In [1]:
import pandas as pd
from pandas import DataFrame
from pandas import Series

## Series

### 参数


| 参数名称 | 描述                                                         |
| :------- | :------------------------------------------------------------- |
| data     | 输入的数据，可以是列表、常量、ndarray 数组等。 |
| index    | 索引值必须是惟一的，如果没有传递索引，则默认为 np.arrange(n)。 |
| dtype    | dtype表示数据类型，如果没有提供，则会自动判断得出。 |
| copy     | 表示对 data 进行拷贝，默认为 False。               |

In [2]:
from pandas import Series
s = Series(data=[i for i in range(50,54)],index=["a","b","v","m"])
print(s)

a    50
b    51
v    52
m    53
dtype: int64


+ data 内容可以是列表，np数组，或者字典

### 取值

+ 索引
    
    s[1]

+ 索引标签
    
    s["a"]

In [3]:
print(s[0])
print(s[[0,1,2,3]])
print(s[["a","b",]])

50
a    50
b    51
v    52
m    53
dtype: int64
a    50
b    51
dtype: int64


### 切片

In [60]:
from pandas import Series
s = Series(data=[i for i in range(50,54)],index=["a","b","v","m"])
s

a    50
b    51
v    52
m    53
dtype: int64

In [62]:
s[:2]

a    50
b    51
dtype: int64

In [63]:
s["b":"m"]

b    51
v    52
m    53
dtype: int64

### 常用属性

| 名称   | 属性                                             |
|:-------|:-------------------------------------------------|
| axes   | 以列表的形式返回所有行索引标签。                 |
| dtype  | 返回对象的数据类型。                             |
| empty  | 返回一个空的 Series 对象。                       |
| ndim   | 返回输入数据的维数。                             |
| size   | 返回输入数据的元素数量。                         |
| values | 以 ndarray 的形式返回 Series 对象。              |
| index  | 返回一个RangeIndex对象，用来描述索引的取值范围。 |


### 常用方法

head(): 头几个

tail()：尾几个

+ 默认为5个

isnull() 

nonull()

+ 判断是否为空

## DataFrame

### 参数

![image.png](attachment:image.png)

| 参数名称 | 说明                                                                                 |
|:---------|:-------------------------------------------------------------------------------------|
| data     | 输入的数据，可以是 ndarray，series，list，dict，标量以及一个 DataFrame。             |
| index    | 行标签，如果没有传递 index 值，则默认行标签是 np.arange(n)，n 代表 data 的元素个数。 |
| columns  | 列标签，如果没有传递 columns 值，则默认列标签是 np.arange(n)。                       |
| dtype    | dtype表示每一列的数据类型。                                                          |
| copy     | 默认为 False，表示复制数据 data。                                                    |


+ data参数说明

最小的每个list是一行，若key有缺失补空值

默认情况，字典的键作为列名，且定义中colums= [] 无法覆盖列名，只会追加空列

使用series数据创建，将series作为字典的值，其index作为df数据的index，字典的key作为colums

In [5]:
import pandas as pd
data = [[1,2,3,4,5],[6,7,8,9]]
df = pd.DataFrame(data)
print(df)

   0  1  2  3    4
0  1  2  3  4  5.0
1  6  7  8  9  NaN


In [38]:
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)

   a   b     c
0  1   2   NaN
1  5  10  20.0


In [40]:
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print(df)

        Name  Age
rank1    Tom   28
rank2   Jack   34
rank3  Steve   29
rank4  Ricky   42


In [41]:
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


### 列索引操作DataFrame

#### 取列

+ 示例

In [76]:
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


直接使用下标则取到对应的列

如df["one"]

In [77]:
df["one"] # 只能这样取

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

#### 增加列

In [78]:
df["three"] = [11,22,33,44]

In [79]:
df["four"] = pd.Series(data=[111,222,333,444,555],index=list("abcde"))

In [82]:
df["four"]

a    111
b    222
c    333
d    444
Name: four, dtype: int64

+ 若所插入列长度比df长度大，则会被裁剪掉

In [87]:
df.insert(loc=0,column="six",value=list("dong"))

df

df.insert(loc,colum,value)

loc：在第几列后面插入

colun： 新列名称

value：值，长度对应df长度

In [92]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, a to d
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   six     4 non-null      object 
 1   one     3 non-null      float64
 2   five    4 non-null      object 
 3   two     4 non-null      int64  
 4   three   4 non-null      int64  
 5   four    4 non-null      int64  
dtypes: float64(1), int64(3), object(2)
memory usage: 396.0+ bytes


#### 删除列

+ del df["列名"]
+ df.pop("列名")

In [105]:
df

Unnamed: 0,one,two,three,four
a,1.0,1,11,111
b,2.0,2,22,222
c,3.0,3,33,333
d,,4,44,444


In [102]:
df.pop("six")
print(df)

   one five  two  three  four
a  1.0    l    1     11   111
b  2.0    i    2     22   222
c  3.0    u    3     33   333
d  NaN    d    4     44   444


In [106]:
del df["four"]
print(df)

### 行索引操作DataFrame

#### 取行

+ 示例

In [207]:
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.arange(12).reshape(3,4),index=list("XYZ"),columns=list("ABCD"))
print(df)

   A  B   C   D
X  0  1   2   3
Y  4  5   6   7
Z  8  9  10  11


+ 使用.loc[],传入显示标签，可传入列表，[[行标签]，[列标签]]

In [208]:
df

Unnamed: 0,A,B,C,D
X,0,1,2,3
Y,4,5,6,7
Z,8,9,10,11


In [209]:
df.loc[["X","Y"],["B","C"]]

Unnamed: 0,B,C
X,1,2
Y,5,6


+ 使用iloc[],传入行列号,可传入列表取范围

In [210]:
df

Unnamed: 0,A,B,C,D
X,0,1,2,3
Y,4,5,6,7
Z,8,9,10,11


In [211]:
df.iloc[[0,1,2],[0,1,2]]

Unnamed: 0,A,B,C
X,0,1,2
Y,4,5,6
Z,8,9,10


+ 切片,左开右闭

In [212]:
df

Unnamed: 0,A,B,C,D
X,0,1,2,3
Y,4,5,6,7
Z,8,9,10,11


In [213]:
df[0:2] # 等同于df[0:2,:],但是不能这么写

Unnamed: 0,A,B,C,D
X,0,1,2,3
Y,4,5,6,7


#### 增加行

+ append()函数，内部参数需要是DataFrame

In [216]:
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.arange(12).reshape(3,4),index=list("XYZ"),columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
X,0,1,2,3
Y,4,5,6,7
Z,8,9,10,11


In [225]:
df_1 = pd.DataFrame(data=np.arange(120,step = 10).reshape(3,4),index=list("OPQ"),columns=list("ABCD"))
df_1

Unnamed: 0,A,B,C,D
O,0,10,20,30
P,40,50,60,70
Q,80,90,100,110


In [226]:
df_2 = df.append(df_1)
df_2

Unnamed: 0,A,B,C,D
X,0,1,2,3
Y,4,5,6,7
Z,8,9,10,11
O,0,10,20,30
P,40,50,60,70
Q,80,90,100,110


#### 删除行

df.drop(index) 如果有相同的index，则会被一起删掉

### 切片操作总解

* 示例

In [157]:
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.arange(12).reshape(3,4),index=list("XYZ"),columns=list("ABCD"))
print(df)

   A  B   C   D
X  0  1   2   3
Y  4  5   6   7
Z  8  9  10  11


#### 只取行

+ 取单行,loc[行名称]或者iloc[行号]。

返回值是Series,如果放入列表内，则返回DataFrame

**不能df[行号/行名称]，但是可以df[行号：行号]切片**

In [173]:
x1 = df.loc["X"]
x2 = df.iloc[0]
x3 = df.loc[["X"]] 
x4 = df.iloc[[0]]
print(x1)
print(x2)
print(x3)
print(x4)
print(type(x1))  # Series
print(type(x2))  # Series
print(type(x3))  # DataFrame
print(type(x4))  # DataFrame

A    0
B    1
C    2
D    3
Name: X, dtype: int32
A    0
B    1
C    2
D    3
Name: X, dtype: int32
   A  B  C  D
X  0  1  2  3
   A  B  C  D
X  0  1  2  3
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


+ 取连续多行

.loc[行名称：行名称]

.iloc[行号：行号]

df[行号：行号]

In [179]:
x5 = df.loc["X":"Y"]
print(x5)
x6 = df.iloc[0:2]
print(x6)
x7 = df[0:2]
print(x7)

   A  B  C  D
X  0  1  2  3
Y  4  5  6  7
   A  B  C  D
X  0  1  2  3
Y  4  5  6  7
   A  B  C  D
X  0  1  2  3
Y  4  5  6  7


+ 不连续多行

.loc[[行名称1,行名称2]]

.iloc[[行号1，行号2]]

In [181]:
x8 = df.loc[["X","Z"]]
print(x8)
x9 = df.iloc[[0,2]]
print(x9)

   A  B   C   D
X  0  1   2   3
Z  8  9  10  11
   A  B   C   D
X  0  1   2   3
Z  8  9  10  11


#### 只取列

+ 示例

In [191]:
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.arange(64).reshape(8,8),index=list("STUVWXYZ"),columns=list("ABCDEFGH"))
print(df)

    A   B   C   D   E   F   G   H
S   0   1   2   3   4   5   6   7
T   8   9  10  11  12  13  14  15
U  16  17  18  19  20  21  22  23
V  24  25  26  27  28  29  30  31
W  32  33  34  35  36  37  38  39
X  40  41  42  43  44  45  46  47
Y  48  49  50  51  52  53  54  55
Z  56  57  58  59  60  61  62  63


+ 取单列

直接[]取

loc[:,列名称]

iloc[:,列号]

**和取行一个概念**

In [192]:
y1 = df["A"]
print(y1)  # Series
# y1 = df[1]  # 不能这么用

S     0
T     8
U    16
V    24
W    32
X    40
Y    48
Z    56
Name: A, dtype: int32


+ 取不连续多行

+ 取连续多行

**都是用loc和iloc取**，无非前面多了个冒号逗号

#### 取行也取列

必须用loc或者iloc了

In [195]:
df.iloc[0:3, 4:6]  # 左开右闭

Unnamed: 0,E,F
S,4,5
T,12,13
U,20,21


In [198]:
df.loc["S":"W", "A":"D"]  # 两边都能取得到

Unnamed: 0,A,B,C,D
S,0,1,2,3
T,8,9,10,11
U,16,17,18,19
V,24,25,26,27
W,32,33,34,35


### 常用属性和方法

| 名称    | 属性&方法描述                                            |
|:--------|:---------------------------------------------------------|
| T       | 行和列转置。                                             |
| axes    | 返回一个仅以行轴标签和列轴标签为成员的列表。             |
| dtypes  | 返回每列数据的数据类型。                                 |
| empty   | DataFrame中没有数据或者任意坐标轴的长度为0，则返回True。 |
| ndim    | 轴的数量，也指数组的维数。                               |
| shape   | 返回一个元组，表示了 DataFrame 维度。                    |
| size    | DataFrame中的元素数量。                                  |
| values  | 使用 numpy 数组表示 DataFrame 中的元素值。               |
| head()  | 返回前 n 行数据。                                        |
| tail()  | 返回后 n 行数据。                                        |
| shift() | 将行或列移动指定的步幅长度                               |


In [8]:
import pandas as pd
import numpy as np
d = {'Name': pd.Series(['c语言中文网', '编程帮', "百度", '360搜索', '谷歌', '微学苑', 'Bing搜索']),
     'years': pd.Series([5, 6, 15, 28, 3, 19, 23]),
     'Rating': pd.Series([4.23, 3.24, 3.98, 2.56, 3.20, 4.6, 3.8])}
# 构建DataFrame
df = pd.DataFrame(d)
# 输出series
df

Unnamed: 0,Name,years,Rating
0,c语言中文网,5,4.23
1,编程帮,6,3.24
2,百度,15,3.98
3,360搜索,28,2.56
4,谷歌,3,3.2
5,微学苑,19,4.6
6,Bing搜索,23,3.8


+ T转置

In [9]:
df.T

Unnamed: 0,0,1,2,3,4,5,6
Name,c语言中文网,编程帮,百度,360搜索,谷歌,微学苑,Bing搜索
years,5,6,15,28,3,19,23
Rating,4.23,3.24,3.98,2.56,3.2,4.6,3.8


In [16]:
df.axes  # 返回值是list [indes,colmus]

[RangeIndex(start=0, stop=7, step=1),
 Index(['Name', 'years', 'Rating'], dtype='object')]

In [19]:
df.dtypes  # 返回每一列的数据类型 Series

Name       object
years       int64
Rating    float64
dtype: object

In [22]:
df.empty  # 判断是否为空

False

In [26]:
df.shape  # 元组(行，列)

(7, 3)

In [27]:
df.size  # 元素数量

21

In [31]:
df.values # ndarray

array([['c语言中文网', 5, 4.23],
       ['编程帮', 6, 3.24],
       ['百度', 15, 3.98],
       ['360搜索', 28, 2.56],
       ['谷歌', 3, 3.2],
       ['微学苑', 19, 4.6],
       ['Bing搜索', 23, 3.8]], dtype=object)

In [35]:
df.head(5) # 默认前五
df.tail(5) # 默认后五

Unnamed: 0,Name,years,Rating
2,百度,15,3.98
3,360搜索,28,2.56
4,谷歌,3,3.2
5,微学苑,19,4.6
6,Bing搜索,23,3.8


+ .shift()
| 参数名称   | 说明                                                                       |
|:-----------|:---------------------------------------------------------------------------|
| peroids    | 类型为int，表示移动的幅度，可以是正数，也可以是负数，默认值为1。           |
| freq       | 日期偏移量，默认值为None，适用于时间序。取值为符合时间规则的字符串。       |
| axis       | 如果是 0 或者 "index" 表示上下移动，如果是 1 或者 "columns" 则会左右移动。 |
| fill_value | 该参数用来填充缺失值。                                                     |

In [41]:
df.shift(periods= -2, axis= 1,fill_value= "NNN") # periods移动幅度，axis移动轴，0为上下X轴方向的行，1为左右移动Y轴方向的列

Unnamed: 0,Name,years,Rating
0,4.23,NNN,NNN
1,3.24,NNN,NNN
2,3.98,NNN,NNN
3,2.56,NNN,NNN
4,3.2,NNN,NNN
5,4.6,NNN,NNN
6,3.8,NNN,NNN


## pandas.Panel() 三维数组

## 描述性统计

| 函数名称  | 描述说明                                                        |
|:----------|:----------------------------------------------------------------|
| count()   | 统计某个非空值的数量。                                          |
| sum()     | 求和                                                            |
| mean()    | 求均值                                                          |
| median()  | 求中位数                                                        |
| mode()    | 求众数                                                          |
| std()     | 求标准差                                                        |
| min()     | 求最小值                                                        |
| max()     | 求最大值                                                        |
| abs()     | 求绝对值                                                        |
| prod()    | 求所有数值的乘积。                                              |
| cumsum()  | 计算累计和，axis=0，按照行累加；axis=1，按照列累加。            |
| cumprod() | 计算累计积，axis=0，按照行累积；axis=1，按照列累积。            |
| corr()    | 计算数列或变量之间的相关系数，取值-1到1，值越大表示关联性越强。 |


+ **示例**

In [42]:
import pandas as pd
import numpy as np
#创建字典型series结构
d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
   '老李','老王','小冯','小何','老张']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age,Rating
0,小明,25,4.23
1,小亮,26,3.24
2,小红,25,3.98
3,小华,23,2.56
4,老赵,30,3.2
5,小曹,29,4.6
6,小陈,23,3.8
7,老李,34,3.78
8,老王,40,2.98
9,小冯,30,4.8


+ sum()求和

注意：sum() 和 cumsum() 函数可以同时处理数字和字符串数据。虽然字符聚合通常不被使用，但使用这两个函数并不会抛出异常；而对于 abs()、cumprod() 函数则会抛出异常，因为它们无法操作字符串数据。

+ mean()求均值

+ std()求标准差

+ describe() 数据汇总描述


In [52]:
df.sum(axis=1)  # Series

  df.sum(axis=1)  # Series


0     29.23
1     29.24
2     28.98
3     25.56
4     33.20
5     33.60
6     26.80
7     37.78
8     42.98
9     34.80
10    55.10
11    49.65
dtype: float64

In [50]:
df.cumsum() # DataFrame

Unnamed: 0,Name,Age,Rating
0,小明,25,4.23
1,小明小亮,51,7.47
2,小明小亮小红,76,11.45
3,小明小亮小红小华,99,14.01
4,小明小亮小红小华老赵,129,17.21
5,小明小亮小红小华老赵小曹,158,21.81
6,小明小亮小红小华老赵小曹小陈,181,25.61
7,小明小亮小红小华老赵小曹小陈老李,215,29.39
8,小明小亮小红小华老赵小曹小陈老李老王,255,32.37
9,小明小亮小红小华老赵小曹小陈老李老王小冯,285,37.17


In [55]:
df.mean(axis = 0)

  df.mean(axis = 0)


Age       31.833333
Rating     3.743333
dtype: float64

In [56]:
df.std()

  df.std()


Age       9.232682
Rating    0.661628
dtype: float64

In [57]:
df.describe()

Unnamed: 0,Age,Rating
count,12.0,12.0
mean,31.833333,3.743333
std,9.232682,0.661628
min,23.0,2.56
25%,25.0,3.23
50%,29.5,3.79
75%,35.5,4.1325
max,51.0,4.8


+ include 相关参数值说明如下：
    + object： 表示对字符列进行统计信息描述；
    + number：表示对数字列进行统计信息描述；
    + all：汇总所有列的统计信息。

In [58]:
df.describe(include="object")

Unnamed: 0,Name
count,12
unique,12
top,小明
freq,1


In [59]:
df.describe(include="all")

Unnamed: 0,Name,Age,Rating
count,12,12.0,12.0
unique,12,,
top,小明,,
freq,1,,
mean,,31.833333,3.743333
std,,9.232682,0.661628
min,,23.0,2.56
25%,,25.0,3.23
50%,,29.5,3.79
75%,,35.5,4.1325
