# Pandas
### pandas简介

+ 核心功能是在二维**表格**上做各种操作，如增删改、求一列数据的和、方差、中位数、平均数等
+ 需要numpy支持
+ 如果有openpyxl或xlrd或xlwt支持，还可以读写excel文档
+ 最关键的类**DataFrame, 表示二维表格**

In [36]:
import pandas as pd
import numpy as np

### pandas的重要类：Series

+ Series是一维**表格**，每个元素带标签且有下标，兼具列表和字典的访问形式

In [12]:
s = pd.Series(data=[80, 90, 100], index=['语文', '数学', '英语'])  # data为元素，index为标签
for x in s:         # 访问元素
    print(x, end=' ')

80 90 100 

In [7]:
s['语文'], s[1]     # 标签和序号都可以作为下标来访问元素

(80, 90)

In [8]:
print(s[0:2]['数学'])       # s[0:2]为范围[0,2)的切片（即子列表）
print(s['数学':'英语'][1])  # 标签做切片时范围是闭区间

90
100


In [9]:
for i in range(len(s.index)):       # 访问标签
    print(s.index[i], end=' ')      # 输出index成员，即标签

语文 数学 英语 

In [13]:
s['体育'] = 110       # 在尾部添加元素，标签为体育，值为110
s.pop('数学')         # 删除标签为'数学'的元素
s

语文     80
英语    100
体育    110
dtype: int64

In [17]:
s2 = s.append(pd.Series(120, index=['政治']))   # 创建新列表s2且不改变s
s2['语文'], s2['政治']

  s2 = s.append(pd.Series(120, index=['政治']))   # 创建新列表s2且不改变s


(80, 120)

In [18]:
list(s2)    # 转为python列表

[80, 100, 110, 120]

In [19]:
s.sum(), s.min(), s.mean(), s.median()  # 和、最小值、均值、中位数

(290, 80, 96.66666666666667, 100.0)

In [20]:
s.idxmax(), s.argmax()  # 最大元素标签和下标

('体育', 2)

### DataFrame的构造和访问

+ DataFrame是**带行列标签的二维表格，每一列都是一个Series**

In [24]:
scores = [['男', 108, 115, 97], ['女', 115, 87, 105], ['女', 100, 60, 130],
          ['男', 112, 80, 50]]
names = ['刘一哥', '王二姐', '张三妹', '李四弟']
courses = ['性别', '语文', '数学', '英语']
df = pd.DataFrame(data=scores, index=names, columns=courses)    # 数据、行标签、列标签
df

Unnamed: 0,性别,语文,数学,英语
刘一哥,男,108,115,97
王二姐,女,115,87,105
张三妹,女,100,60,130
李四弟,男,112,80,50


In [25]:
# 访问
print(df.values[0][1], type(df.values))
print(list(df.index))       # 行标签
print(list(df.columns))     # 列标签

108 <class 'numpy.ndarray'>
['刘一哥', '王二姐', '张三妹', '李四弟']
['性别', '语文', '数学', '英语']


In [26]:
s1 = df['语文']       # s1是个Series，代表‘语文’那一列
print(s1['刘一哥'], s1[0])     # 刘一哥语文成绩
print(df['语文']['刘一哥'])     # 列索引写在前

108 108
108


In [27]:
s2 = df.loc['王二姐']  # s2也是一个Series，代表‘王二姐’那一行
s2['性别'], s2['语文'], s2[2]

('女', 115, 87)

### DataFrame的切片

| DataFrame的切片          | |
| ------------------------ | ------------------------- |
| iloc[行选择器, 列选择器] | 用下标做切片              |
| loc[行选择器, 列选择器]  | 用标签做切片              |
+ DataFrame的切片是视图，修改视图就会修改原表格

In [28]:
df2 = df.iloc[1:3]      # 行切片，选1，2两行。 列切片省略说明全取
df2 = df.loc['王二姐':'张三妹']  # 和上一行等价
df2

Unnamed: 0,性别,语文,数学,英语
王二姐,女,115,87,105
张三妹,女,100,60,130


In [29]:
df3 = df.iloc[:, 0:3]   # 列切片，选0,1,2三列。 行切片省略说明全取
df3 = df.loc[:, '性别':'数学']  # 和上一行等价
df3

Unnamed: 0,性别,语文,数学
刘一哥,男,108,115
王二姐,女,115,87
张三妹,女,100,60
李四弟,男,112,80


In [30]:
df4 = df.iloc[:2, [1, 3]]   # 行列切片，取0，1行，1和3列
df4 = df.loc[:'王二姐', ['语文', '英语']]  # 与上一行等价
df4

Unnamed: 0,语文,英语
刘一哥,108,97
王二姐,115,105


In [31]:
df5 = df.iloc[[1, 3], 2:4]  # 1，3行；2,3列
df5 = df.loc[['王二姐', '李四弟'], '数学':'英语']  # 与上一行等价
df5

Unnamed: 0,数学,英语
王二姐,87,105
李四弟,80,50


In [4]:
df1 = pd.DataFrame(
    {
        'var1': 1.0,
        'var2': [1, 2, 3, 4],
        'var3': ['test', 'train', 'test', 'train'],
        'var4': 'cons'
    }
)
df1

Unnamed: 0,var1,var2,var3,var4
0,1.0,1,test,cons
1,1.0,2,train,cons
2,1.0,3,test,cons
3,1.0,4,train,cons


### pandas读CSV（文本格式）
+ 读：`pd.read_csv()`、`pd.read_table()`(更通用)
+ 写：`pd.to_csv()`

In [None]:
pd.read_csv(
    filepath_or_buffer=,    # 文件路径  
    sep=',',                # 列分隔符
    header='infer',         # 指定数据从第几行开始读
    names=None,             # 自定义变量名列表
    index_col=None,         # 将会被用作索引的列名，多列时只能用序号列表
    usecols=None,           # 指定读入哪几列，使用序号或标签名称都行
    encoding=None,          # 编码方式（utf-8/GBK)
    na_values=              # 指定将被读入为缺失值的数值列表
)