# Pandas 速查表
- Author: [HuiFer](https://github.com/huifer)
- Description: 本文为pandas方法表

## 安装
```
pip install pandas
```

## 导入pandas

In [18]:
import pandas as pd 
import numpy  as np
import os

print(pd.__version__)
print(np.__version__)

0.25.2
1.17.3


## 随机数据创建

In [110]:
# 随机数据创建
# 随机创建01数字
df = pd.DataFrame(np.random.randint(low=0,high=2,size=[6,4]), columns=["a","b","c","d"])

# 设置索引名称
df.index.name = "index_name"
df

Unnamed: 0_level_0,a,b,c,d
index_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1,1,1,1
1,1,0,1,1
2,0,0,1,0
3,1,1,0,1
4,1,0,0,1
5,0,1,0,0


## 数据导出
- 导出csv
    - df.to_csv(file_name)
- 导出excel
    - df.to_excel(file_name)
- 导出sql
    - df.to_sql()
- 导出json
    - df.to_json()

In [111]:
file_path = "../test_data/"
export_path =  os.path.abspath(file_path)
csv_file = os.path.join(export_path,"to_csv.csv")
json_file = os.path.join(export_path,"to_json.json")
excel_file = os.path.join(export_path,"to_excel.xls")

df.to_csv(csv_file)
df.to_json(json_file)
df.to_excel(excel_file)
print("export_success")

export_success


## 数据读取
- 读取csv
    - pd.read_csv(file_name)
- 读取tsv
    - pd.read_table(file_name)
- 读取excel
    - pd.read_excel(file_name)
- 读取sql表
    - pd.read_sql(query,obj)
- 读取json字符串
    - pd.read_json(json_str)
- 读取html
    - pd.read_html(url)
- 读取dict类型
    - pd.DataFrame(dict)

In [112]:
df_csv = pd.read_csv(csv_file)
df_json = pd.read_json(json_file)
df_excel = pd.read_excel(excel_file)

print(df_csv)
print(df_json)
print(df_excel)


   index_name  a  b  c  d
0           0  1  1  1  1
1           1  1  0  1  1
2           2  0  0  1  0
3           3  1  1  0  1
4           4  1  0  0  1
5           5  0  1  0  0
   a  b  c  d
0  1  1  1  1
1  1  0  1  1
2  0  0  1  0
3  1  1  0  1
4  1  0  0  1
5  0  1  0  0
   index_name  a  b  c  d
0           0  1  1  1  1
1           1  1  0  1  1
2           2  0  0  1  0
3           3  1  1  0  1
4           4  1  0  0  1
5           5  0  1  0  0


## 数据查看
- df.head(n) 查看数据的前n行
- df.tail(n) 查看数据的倒数n行
- df.shap 查看的 行数和列数
- df.info() 查看 dataFrame 的索引、数据类型
- df.describe() 对于数据类型为数值型的列，查询其描述性统计的内容
- df.apply(pd.Series.value_counts)  查询 dataFrame 中每列的独特数据值出现次数统计
- s.value_counts(dropna=False)  查询每个数据值出现次数统计

In [124]:
print(df.head(3))
print()
print(df.tail(2))
print()
print(df.shape)
print()
print(df.info())
print()
print(df.describe())

def add_one(num):
    return num +1

print(df.apply(func=add_one, axis=1))
print()
print(df['a'].value_counts(dropna=False))



            a  b  c  d
index_name            
0           1  1  1  1
1           1  0  1  1
2           0  0  1  0

            a  b  c  d
index_name            
4           1  0  0  1
5           0  1  0  0

(6, 4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
a    6 non-null int32
b    6 non-null int32
c    6 non-null int32
d    6 non-null int32
dtypes: int32(4)
memory usage: 224.0 bytes
None

              a         b         c         d
count  6.000000  6.000000  6.000000  6.000000
mean   0.666667  0.500000  0.500000  0.666667
std    0.516398  0.547723  0.547723  0.516398
min    0.000000  0.000000  0.000000  0.000000
25%    0.250000  0.000000  0.000000  0.250000
50%    1.000000  0.500000  0.500000  1.000000
75%    1.000000  1.000000  1.000000  1.000000
max    1.000000  1.000000  1.000000  1.000000
            a  b  c  d
index_name            
0           2  2  2  2
1           2  1  2  2
2           1  1  2  1
3           2  2 

## 数据选择
- df[col] 返回 Series 类型的数据列
- df[[col1,cole2]] 返回 dataFrame 类型的数据列
- s.iloc[n] 按 n 选择列
- s.iloc[index] 按索引选择
- df.iloc[0,:] 选择第一行
- df.iloc[x,y] 选择第 x 行第 y 个

In [138]:
print(df["a"])
print()
print(df[["a","c"]])
print("选择第一行")
print(df.iloc[0,:])
print("选择第一行第一个")
print(df.iloc[1,2])
print("先选择a,c两列在选择索引为0的一行")
print(df[["a","c"]].iloc[0])


index_name
0    1
1    1
2    0
3    1
4    1
5    0
Name: a, dtype: int32

            a  c
index_name      
0           1  1
1           1  1
2           0  1
3           1  0
4           1  0
5           0  0
选择第一行
a    1
b    1
c    1
d    1
Name: 0, dtype: int32
选择第一行第一个
1
a    1
c    1
Name: 0, dtype: int32


## 过滤,排序,分组
- df[df[col] > x ] 选择 dataFrame 指定列col中大于x的值,注df[col] > x 可填写多个条件用括号包裹df[(df[col] > 1 ) & (df[col] < 2)]
- df.sort_values(col1) 按照 dataFrame 的列col1升序(ascending)的方式对 dataFrame 做排序,ascending=False 降序
    - df.sort_values([col1,col2],ascending=[True,False]) 按照 dataFrame 的列col1升序，col2降序的方式对 dataFrame 做排序

- df.groupby(col) 按照 col 对 dataFrame 做分组
    - df.groupby([col1,col2])
    

In [146]:
print(df[df['a']>0])
print(df[(df['a']>0) & (df['b']>0)])
print(df.groupby("a"))

            a  b  c  d
index_name            
0           1  1  1  1
1           1  0  1  1
3           1  1  0  1
4           1  0  0  1
            a  b  c  d
index_name            
0           1  1  1  1
3           1  1  0  1


Unnamed: 0_level_0,b,c,d
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,1,0
1,1,1,1


## 统计
- groupby后可以可以继续使用
- df.describe() 得到 dataFrame 每一列的描述性统计
- df.mean() 得到 dataFrame 中每一列的平均值
- df.corr() 得到 dataFrame 中每一列与其他列的相关系数
- df.count() 得到 dataFrame 中每一列的非空值个数
- df.max() 得到 dataFrame 中每一列的最大值
- df.min() 得到 dataFrame 中每一列的最小值
- df.median() 得到 dataFrame 中每一列的中位数
- df.std() 得到 dataFrame 中每一列的标准差

In [152]:
print(df.describe())
print(df.mean())
print(df.corr())
print(df.count())
print(df.max())
print(df.min())
print(df.median())
print(df.std())

print("=============group=============")

df.groupby("a").mean()

              a         b         c         d
count  6.000000  6.000000  6.000000  6.000000
mean   0.666667  0.500000  0.500000  0.666667
std    0.516398  0.547723  0.547723  0.516398
min    0.000000  0.000000  0.000000  0.000000
25%    0.250000  0.000000  0.000000  0.250000
50%    1.000000  0.500000  0.500000  1.000000
75%    1.000000  1.000000  1.000000  1.000000
max    1.000000  1.000000  1.000000  1.000000
a    0.666667
b    0.500000
c    0.500000
d    0.666667
dtype: float64
     a         b         c    d
a  1.0  0.000000  0.000000  1.0
b  0.0  1.000000 -0.333333  0.0
c  0.0 -0.333333  1.000000  0.0
d  1.0  0.000000  0.000000  1.0
a    6
b    6
c    6
d    6
dtype: int64
a    1
b    1
c    1
d    1
dtype: int32
a    0
b    0
c    0
d    0
dtype: int32
a    1.0
b    0.5
c    0.5
d    1.0
dtype: float64
a    0.516398
b    0.547723
c    0.547723
d    0.516398
dtype: float64


Unnamed: 0_level_0,b,c,d
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0.5,0.5,0.0
1,0.5,0.5,1.0
