In [426]:
import pandas as pd
import numpy as np

## 基本数据结构
* Series: 1维数组，支持两类索引(Index)：1. 位置(position: int)，2. 标签(label: object|string)
* DataFrame: 2维数据表格，由Series构成列(Columns), 并共用Series的索引(Index), 所以表格行列称为(index,columns)或(rows,columns), 也可称为第0纬和第1维, 或第0轴和第1轴，在指定数据方向的时候，这几种方式是等价的, 即 axis=0|index|rows 指定数据垂直方向, axis=1|columns 指定数据水平方向

In [308]:
s = pd.Series([1,2,3,4,5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [309]:
s1 = pd.Series(list('abcde'))
s1

0    a
1    b
2    c
3    d
4    e
dtype: object

In [310]:
df = pd.DataFrame({'col0':s, 'col1':s1})
df

Unnamed: 0,col0,col1
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


### DataFrame 相关信息

In [333]:
# 数据的形状为 10x5 = len(df.index) x len(df.columns)
df.shape

(10, 5)

In [334]:
df.index

RangeIndex(start=0, stop=10, step=1)

In [335]:
df.columns

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [338]:
# 统计每列非空个数
df.loc[3,'b'] = np.nan
df.count(axis=0)

a    10
b     9
c    10
d    10
e    10
dtype: int64

### 指定坐标轴操作

In [311]:
df = pd.DataFrame(np.random.randint(0,10,size=(5,3)))
df

Unnamed: 0,0,1,2
0,0,3,0
1,7,0,5
2,9,7,0
3,2,7,4
4,3,5,8


In [312]:
# 行方向求和
df.sum(axis=0)

0    21
1    22
2    17
dtype: int64

In [313]:
# 列方向求和
df.sum(axis=1)

0     3
1    12
2    16
3    13
4    16
dtype: int64

In [314]:
# 丢弃0轴上的 1,3 坐标点
df.drop([1,3], axis=0)

Unnamed: 0,0,1,2
0,0,3,0
2,9,7,0
4,3,5,8


In [315]:
# 丢弃1轴上的 2 坐标点
df.drop([2], axis=1)

Unnamed: 0,0,1
0,0,3
1,7,0
2,9,7
3,2,7
4,3,5


### 固定坐标轴操作
```df[key]```中的key为列轴坐标，但当key为bool Series类型时为行掩码，```df.loc[x,y]```中的x, y分别为行轴，列轴坐标

In [316]:
df = pd.DataFrame(np.random.randint(0,10,size=(5,3)), columns=list('abc'))
df

Unnamed: 0,a,b,c
0,9,6,5
1,3,4,4
2,9,8,3
3,9,8,9
4,1,2,5


In [317]:
# 1 轴(columns)上的操作, 通过key='a'定位列数据
df['a']

0    9
1    3
2    9
3    9
4    1
Name: a, dtype: int64

In [318]:
# 0 轴(index)上的操作，通过key=3定位行数据, 行数据也是Series，一般会统一转成object类型，因为不同列一般类型不同
df.loc[3]

a    9
b    8
c    9
Name: 3, dtype: int64

In [319]:
# 0,1 两个坐标轴定位赋值
df.loc[3,'a'] = 30
df

Unnamed: 0,a,b,c
0,9,6,5
1,3,4,4
2,9,8,3
3,30,8,9
4,1,2,5


### 数据类型 dtypes
每个Series都有一个dtype，表示序列的类型，一般是一个具体的类型，混合类型用object，如果取一行数据，一般用混合的object类型，常用类型如下：

* int
* float
* string
* bool
* object

In [320]:
# 如果不指定类型，会自动推断类型，string 会推断成object
s = pd.Series(['hello','world','nice','to','meet','pandas'])
s

0     hello
1     world
2      nice
3        to
4      meet
5    pandas
dtype: object

In [321]:
# 最好指定具体类型，如下数据在读取csv的时候容易推断成 float 类型， 给操作带来不便
s = pd.Series(['13122334455','13888888884',np.nan], dtype='string')
s

0    13122334455
1    13888888884
2           <NA>
dtype: string

## 更多数据定位选取与赋值
* by position
* by index/label
* by boolean index

In [322]:
df = pd.DataFrame(np.random.randint(0,100,size=(10,5)), columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,41,93,25,18,71
1,88,60,84,28,66
2,66,43,4,91,0
3,87,48,37,81,50
4,4,65,75,2,99
5,45,5,74,79,42
6,90,7,21,79,93
7,11,91,26,90,7
8,28,7,99,92,11
9,48,50,67,28,25


### 通过位置选取数据 (数组下标)

In [323]:
# 选择第3，4行数据
df.iloc[[3,4]]

Unnamed: 0,a,b,c,d,e
3,87,48,37,81,50
4,4,65,75,2,99


In [324]:
# 选择第3,4,5行与第2，3列数据
df.iloc[[3,4,5],[2,3]]

Unnamed: 0,c,d
3,37,81
4,75,2
5,74,79


### 通过索引选取数据

In [325]:
# 通过列索引选取数据
df['b']

0    93
1    60
2    43
3    48
4    65
5     5
6     7
7    91
8     7
9    50
Name: b, dtype: int64

In [326]:
# 通过行索引和列索引选取数据
df.loc[[1,2,5], ['a','b','d']]

Unnamed: 0,a,b,d
1,88,60,28
2,66,43,91
5,45,5,79


In [327]:
# 通过 bool Series index 选择数据, Series长度要和df行数相同，注意此时key=s不再是列坐标，而是行坐标，与loc效果相同
s = pd.Series([True,True,False,False,True,False,False,False,False,False])
df[s]

Unnamed: 0,a,b,c,d,e
0,41,93,25,18,71
1,88,60,84,28,66
4,4,65,75,2,99


In [328]:
# 与上面效果相同
df.loc[s]

Unnamed: 0,a,b,c,d,e
0,41,93,25,18,71
1,88,60,84,28,66
4,4,65,75,2,99


In [329]:
# bool Series index 的威力在于组合各种条件筛选数据，如下面的条件
mask = (df['a'] > 30) & (df['b'] % 2 == 0)
mask

0    False
1     True
2    False
3     True
4    False
5    False
6    False
7    False
8    False
9     True
dtype: bool

In [330]:
# 类似于数据的行掩码，只选取为True的行
df[mask]

Unnamed: 0,a,b,c,d,e
1,88,60,84,28,66
3,87,48,37,81,50
9,48,50,67,28,25


### 赋值
如果对数据进行链式索引再赋值，如
 ```df[col][row] = value```，底层操作实际上是```df.__getitem__(col).__setitem__(row, value)```, 第一级的索引返回的可能是self或copy，后面赋值不可预知，完成此操作应该使用loc进行一次性索引定位，```df.loc[row_indexer, column_indexer] = value```

In [331]:
# 使用chain indexing 赋值会有SettingWithCopyWarning
pd.set_option('mode.chained_assignment','warn')
df[mask][1] = -1
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[mask][1] = -1


Unnamed: 0,a,b,c,d,e
0,41,93,25,18,71
1,88,60,84,28,66
2,66,43,4,91,0
3,87,48,37,81,50
4,4,65,75,2,99
5,45,5,74,79,42
6,90,7,21,79,93
7,11,91,26,90,7
8,28,7,99,92,11
9,48,50,67,28,25


In [332]:
# 使用loc赋值，不要使用chain-indexing
df.loc[mask, 'a'] = -1
df

Unnamed: 0,a,b,c,d,e
0,41,93,25,18,71
1,-1,60,84,28,66
2,66,43,4,91,0
3,-1,48,37,81,50
4,4,65,75,2,99
5,45,5,74,79,42
6,90,7,21,79,93
7,11,91,26,90,7
8,28,7,99,92,11
9,-1,50,67,28,25


## 层级索引 和 reshape
pandas只有2维表结构，如何支持多维数据呢？通过多级索引(MutiIndex)可以实现。理论上，任意维度的数据都可以压缩成1维数据，但2维数据操作是最方便的，就像我们使用的电脑界面。高纬到2维压缩形象的讲就是把嵌套的数据铺平(flatten), 维度信息堆叠到一起存到层级索引，因此索引也有了level，具体到DataFrame，因为是二维，可以有两个层级索引。

In [352]:
index = [np.array(range(2)),np.array(range(4)),np.array(range(3))]
index

[array([0, 1]), array([0, 1, 2, 3]), array([0, 1, 2])]

In [353]:
columns = [np.array(range(3)),np.array(range(4))]
columns

[array([0, 1, 2]), array([0, 1, 2, 3])]

In [430]:
# 生成 shape=24x12 的数据, row有3个维度2x4x3，column有2个维度3x4
data = np.random.choice(list('abcdefghijklmnopqrstuvwxyz'), size=(24,12))
df = pd.DataFrame(data=data, index=pd.MultiIndex.from_product(index,names=['r1','r2','r3']), columns=pd.MultiIndex.from_product(columns,names=['c1','c2']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,c1,0,0,0,0,1,1,1,1,2,2,2,2
Unnamed: 0_level_1,Unnamed: 1_level_1,c2,0,1,2,3,0,1,2,3,0,1,2,3
r1,r2,r3,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
0,0,0,e,q,c,t,r,p,d,k,w,b,p,d
0,0,1,b,l,d,c,u,m,s,e,a,d,s,p
0,0,2,i,b,x,t,x,w,t,h,c,h,n,h
0,1,0,q,u,d,j,e,a,n,r,o,i,s,j
0,1,1,g,w,b,q,d,k,x,l,x,m,f,r
0,1,2,e,h,b,s,n,h,p,n,a,x,f,f
0,2,0,n,s,x,y,l,c,u,p,x,i,g,a
0,2,1,s,k,k,h,s,n,u,z,n,r,s,l
0,2,2,m,i,k,j,g,b,l,b,w,j,l,x
0,3,0,d,q,d,k,y,q,j,y,s,u,r,p
