# pandas

In [1]:
import pandas as pd
import numpy as np

主要有series，dataframe两个子类

series是一维数据序列(即带标签的一维数组)

dataframe是二维数据框(即带标签的二维数组)

构造一个序列的方法

1) 通过列表或元组构建

2) 通过字典构建

3) 通过numpy中的数组构建

4) 通过数据框的某一列构建

In [2]:
#构建序列(series)
# Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

a1 = pd.Series(np.array([0, 1, 2, 3, 4]))    #由数组构造序列
a2 = pd.Series({'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4})    #由字典构造序列
a3 = pd.Series(data=[0, 1, 2, 3, 4], index=['a', 'b', 'c', 'd', 'e'])    #设置索引标签

print(a1)
print('------------')
print(a2)
print('------------')
print(a3)

0    0
1    1
2    2
3    3
4    4
dtype: int32
------------
a    0
b    1
c    2
d    3
e    4
dtype: int64
------------
a    0
b    1
c    2
d    3
e    4
dtype: int64


由上可知，序列第一列是行索引(index)，第二列是实际值

In [3]:
#序列索引和计算
a = pd.Series(data=[2, 3, 5, 7, 11], index=['a', 'b', 'c', 'd', 'e'])
print(a['a'], '  ', a['d'])
#计算平均值
print(np.mean(a))
#使用pandas中mean方法求平均值
print(a.mean())

2    7
5.6
5.6


In [4]:
#此外有其他统计函数
"""
mean(): 样本数据算数平均值
std(): 样本数据标准差
cov(): 样本数据协方差矩阵
var(): 样本数据方差
describe(): 描述样本数据基本情况
"""

print(a.var(), a.std())

12.8 3.5777087639996634


构造数据框

1) 二维数组
  
2) 字典

In [5]:
"""
DataFrame(data=None, index: Union[Collection, NoneType] = None, columns: Union[Collection, NoneType] = None, dtype: Union[ForwardRef('ExtensionDtype'), str, numpy.dtype, Type[Union[str, float, int, complex, bool]], NoneType] = None, copy: bool = False)
"""
a = np.arange(1, 7).reshape(2, 3)
df1 = pd.DataFrame(a)
df2 = pd.DataFrame(data=a, index=['a', 'b'], columns=['A', 'B', 'C'])
df3 = pd.DataFrame({'x1': a[:, 0], 'x2': a[:, 1], 'x3': a[:, 2]})

print(df1)
print('------------')
print(df2)
print('------------')
print(df3)

   0  1  2
0  1  2  3
1  4  5  6
------------
   A  B  C
a  1  2  3
b  4  5  6
------------
   x1  x2  x3
0   1   2   3
1   4   5   6


基于pandas的外部文件读取

使用方法read_csv()读入外部文件

使用help(pd.read_csv)查看该方法的参数，如下几个重要参数



In [6]:
"""
filepath_or_buffer: 指定的文件或URL
sep: 分隔符，默认使用","分隔
delimiter: 备选分隔符，指定该参数，sep失效
header: 列标题. header=None: 则没有列标题，header=0: 第一行为列标题
header=[1, 3, 5]: 2, 4, 6行为列标题，即多个列标题
names: 原数据集中没有字段，可以给数据框添加表头
index_col: 用作行索引的列名(多个行索引)
skiprows: 指定跳过的原数据开头的行数
skipfooter: 指定跳过原数据末尾的行数
nrows: 指定读取数据的行数
na_values: 原数据中哪些特征值作为缺失值
skip_blank_lines: 是否跳过原数据中空白行
parse_dates: 如果参数值为True，尝试解析解析数据框的行索引
             如果参数为列表，尝试解析对应日期列
             如果参数为字典，解析对应的列(值)，生成新的字段名(键)
thousands: 原始数据中千分位符号
comment: 指定注释符，默认为None
encoding: 编码方式(下采用"UTF-8")
"""

inform = pd.read_csv(filepath_or_buffer='cgxf_pd.txt', sep=',', 
                    skiprows=2, skipfooter=1, parse_dates={'birthday': [0, 1, 2]},
                    thousands='&', comment='#', encoding="UTF-8")
print(inform)

    birthday gender name  income
0 2019-03-07      男   张三    6000
1 2019-08-17      女   王零   13100


In [7]:
#使用pd.DataFrame.to_csv()保存文件
"""
path_or_buf: 字符串，放文件名、相对路径、文件流等；
sep: 字符串，分隔符，跟read_csv()的一个意思
na_rep: 字符串，将NaN转换为特定值
columns: 列表，指定哪些列写进去
header: 默认header=0，如果没有表头，设置header=None，表示我没有表头呀！
index: 关于索引的，默认True,写入索引
"""
inform.to_csv(path_or_buf='cgxf_pd1.txt', sep='&', index=False)

### Excel文件存取

In [8]:
#使用函数pd.read_excel()
"""
read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, mangle_dupe_cols=True)
"""
"""
io: Excel文件名
sheet_name: 表单名或表单序号
            整数以零为索引表的位置；字符串/整数列表用于请求多个表；指定None以获取所有表
"""

df = pd.read_excel(io='cgxf_pd2.xlsx', usecols=range(1, 4), engine='openpyxl')    #读入1~3列
print(df.values)    #提取数据
df.describe()    #数据集基本信息

#注: 这里需要安装xlrd和openpyxl两个模块，并且xlrd最新版已经无法读取.xlsx文件

[[124. 254. 486.]
 [168. 125. 566.]
 [176. 215. 466.]
 [222. 332. 456.]
 [251. 265. 123.]
 [ nan 356. 215.]
 [165. 156. 845.]
 [144. 123. 456.]
 [155. 222. 635.]
 [146.  nan 465.]
 [ nan 232. 469.]]


Unnamed: 0,用户a,用户b,用户c
count,9.0,10.0,11.0
mean,172.333333,228.0,471.090909
std,40.115458,79.080831,190.57201
min,124.0,123.0,123.0
25%,146.0,170.75,456.0
50%,165.0,227.0,466.0
75%,176.0,262.25,526.0
max,251.0,356.0,845.0


In [9]:
#将数据读入
inform = pd.read_excel(io='cgxf_pd2.xlsx', usecols=range(1, 4), engine='openpyxl')
#提取数据
inform_value = df.values
df = pd.DataFrame(data=inform_value, index=np.arange(1, 12), columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
1,124.0,254.0,486.0
2,168.0,125.0,566.0
3,176.0,215.0,466.0
4,222.0,332.0,456.0
5,251.0,265.0,123.0
6,,356.0,215.0
7,165.0,156.0,845.0
8,144.0,123.0,456.0
9,155.0,222.0,635.0
10,146.0,,465.0


In [10]:
#将数据写入文件
fp = pd.ExcelWriter('cgxf_pdw.xlsx')
df.to_excel(fp, 'sheet1')    #写入文件第一个表单
df.describe().to_excel(fp, 'sheet2')    #写入文件第二个表单
fp.save()    #保存文件

### 数据子集的获取(loc, iloc)

In [11]:
#iloc: 只能通过行号或者列号进行数据的删选
#loc: 可以指定具体的行标签和列标签
b1 = df.iloc[np.arange(6), [0, 1, 2]]
b1

Unnamed: 0,A,B,C
1,124.0,254.0,486.0
2,168.0,125.0,566.0
3,176.0,215.0,466.0
4,222.0,332.0,456.0
5,251.0,265.0,123.0
6,,356.0,215.0


In [12]:
r = list(range(2, 9))
l = ['A', 'B', 'C']
b2 = df.loc[r, l]
b2

Unnamed: 0,A,B,C
2,168.0,125.0,566.0
3,176.0,215.0,466.0
4,222.0,332.0,456.0
5,251.0,265.0,123.0
6,,356.0,215.0
7,165.0,156.0,845.0
8,144.0,123.0,456.0


同二维数组索引相类似