# Pandas

[https://pandas.pydata.org/docs/index.html](https://pandas.pydata.org/docs/index.html)

In [None]:
from operator import index
import os
from traceback import print_tb
from numpy import NaN, int32
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# DataFrame

定义 DataFrame

In [53]:
df = pd.DataFrame({
        "Name":
        ["苏洵", "苏轼", "苏辙", "张柬之", "王羲之", '白居易', '杜甫', '李白', '李清照', '张择端'],
        "Age": [69, 81, 70, 50, 60, 43, 75, 88, 91, 56],
        "Sex": ['男', "男", "男", "男", "男", '男', "男", '男', "女", "男"],
        "BirthYear": [900, 921, 923, 681, 491, 660, 670, 650, 521, 1022],
        "Dynasty": ['宋', '宋', '宋', '唐', '东晋', '唐', '唐', '唐', '宋', '宋'],
        "Score": [100, 100, 99, 55, 79, 89, 76, 45, 79, 49]
    })

# 设置打印时对齐
pd.set_option('display.unicode.east_asian_width', True)

## 基本信息

打印df信息

In [None]:
print(df.info)

获取df行列值

In [None]:
print(df.shape)

打印表格

In [None]:
print(df)

## 计算函数

最小值

In [None]:
print(df.min())

最大值

In [None]:
print(df.max())

求和

In [None]:
print(df.sum())

单列求和

In [None]:
print(df['Score'].sum())

多列取中位数

In [None]:
print(df[['Age', 'Score']].median())

聚合

In [None]:
print(
    df.agg({
        'Age': ['min', 'max', 'median', 'skew'],
        'Score': ["min", "max", "median", "mean"]
    })
)

分组 groupby（按Sex分组后取每组最大）

In [58]:
grp = df.groupby('Sex').max()
print(grp)

       Name  Age  BirthYear Dynasty  Score
Sex                                       
女   李清照   91        521      宋     79
男     苏辙   88       1022      宋    100


分组 groupby（按Sex分组后取每组的BirthYear最大）

In [56]:
print(df.groupby('Sex')['BirthYear'].max())

Sex
女     521
男    1022
Name: BirthYear, dtype: int64


重置数据表格索引（可以将group结果转成新dataframe）

In [62]:
re = df.groupby('Sex').max()
re.reset_index(inplace=True)
print(re)

  Sex    Name  Age  BirthYear Dynasty  Score
0  女  李清照   91        521      宋     79
1  男    苏辙   88       1022      宋    100


统计某列值有有多少相同的

In [None]:
print(df['Score'].value_counts())

In [None]:
print(df.groupby('Score')['Score'].count())

## 过滤 filter

查看前x行（head函数默认为5）

In [None]:
print(df.head())

In [None]:
print(df.head(5))

查看后3行

In [None]:
print(df.tail(3))

查看分数列

In [None]:
print(df['Score'])

校验某列数据是否符合条件，输出True/False（Age > 80）

In [None]:
print(df['Age'] > 80)

筛选Age > 80的数据

In [None]:
print(df[df['Age'] > 80])

筛选Age > 90 或 < 50

In [None]:
print(df[(df['Age'] > 90) | (df['Age'] < 50)])

筛选Age 60-70之间

In [None]:
print(df[df['Age'].isin([60, 70])])

获取1，3，4行

In [None]:
print(df.iloc[[1, 3, 4]])

获取1行4列单个单元格的值

In [None]:
print(df.iloc[1, 3])

获取1-2行0-1列多个单元格

In [None]:
print(df.iloc[1:3, 0:2])

获取偶数行

In [None]:
print(df.iloc[lambda x: x.index % 2 == 0])

## 替换

替换字符串（不会替换原始df，结果为一个新的df）

In [None]:
print(df.replace('f', 'm'))

替换字符串（替换原始df）

In [None]:
df.replace('f', 'm', inplace=True)

## 编辑表格

新加列

In [None]:
df['ScorePass'] = df['Score'] > 60
df['Score/Age'] = df['Score'] / df['Age']
print(df)

换列名

In [None]:
print(df.rename(columns={'Name': '姓名', 'Age': '年龄'}))

## 排序

单列排序（按Score排序）

In [None]:
print(df.sort_values(by='Score').head())

多列组合排序（按Score，Age排序）

In [None]:
print(df.sort_values(by=['Score', 'Age']).head())

## 透视表

pivot_table index=Sex

In [None]:
print(df.pivot_table(df, index=[u'Sex']))

pivot_table index=Sex,Dynasty,Name

In [None]:
print(df.pivot_table(df, index=[u'Sex', u'Dynasty', u'Name']))

pivot_table index=Sex/agg=count/max

In [None]:
print(df.pivot_table(df, index=[u'Sex'], aggfunc=['count', np.max]))

## 二维图

pip install matplotlib  
https://pandas.pydata.org/docs/getting_started/intro_tutorials/04_plotting.html  
其他图可以参考 plot_t.py  

解决中文显示问题

In [None]:
plt.rcParams['font.sans-serif'] = ['KaiTi']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

折线图

In [None]:
df.plot() # 所有列参与折线
# df['Score'].plot() # 指定列参与折线
name_list = df['Name'].values.tolist()
plt.title('人员信息分布折线图')
plt.xticks(df.index.values, name_list)
plt.xlabel('姓名')
plt.ylabel('详情')
plt.show()

## 文件交互

In [None]:
if not os.path.exists('output'):
        os.mkdir('output')

导出csv

In [None]:
df.to_csv('output/pandas.csv', encoding='utf_8_sig')

加载csv

In [None]:
df = pd.read_csv('input/pandas.csv', encoding='utf-8')
pd.set_option('display.unicode.east_asian_width', True)

导出excel

In [None]:
df.to_excel('output/pandas.xlsx', sheet_name='sheet1')

加载excel

In [None]:
df = pd.read_excel('temp/pandas.xlsx', sheet_name='sheet1')
pd.set_option('display.unicode.east_asian_width', True)

# Series

定义列

In [None]:
s = pd.Series(range(10), dtype=int32)

## 基本信息

打印Series

In [None]:
print(s)

## 函数

最小值

In [None]:
print(s.min())

最大值

In [None]:
print(s.max())

求和

In [None]:
print(s.sum())

平均值

In [None]:
print(s.mean())

标准偏差

In [None]:
print(s.std())