# Pandas

In [20]:
import pandas as pd
import numpy as  np

## Series
> 类似于一维数组的对象，比较像数组和字典的结合体

In [21]:
sr = pd.Series([1,2,3,4], index=['a','b','c','d'])
sr

a    1
b    2
c    3
d    4
dtype: int64

In [22]:
# series有两个索引
# 下标索引  标签索引

# 标签索引
# sr['a']
# 下标索引
sr[0]

1

In [23]:
# 标量运算
sr + 5

a    6
b    7
c    8
d    9
dtype: int64

In [24]:
# 相同长度series运算
sr**sr

a      1
b      4
c     27
d    256
dtype: int64

In [25]:
# 切片
sr[0:2]

a    1
b    2
dtype: int64

In [26]:
# 通用函数
np.abs(sr)

a    1
b    2
c    3
d    4
dtype: int64

In [27]:
# 布尔值过滤
sr[sr>1]

b    2
c    3
d    4
dtype: int64

### sereis字典特性

In [28]:
# 通过字典创建
sr = pd.Series({"a":1,"b":2})

In [29]:
# 通过字典标签获取
sr['a']

1

In [30]:
# in操作
'a' in sr

True

In [31]:
# 获取索引
sr.index

Index(['a', 'b'], dtype='object')

In [32]:
# 获取值
sr.values

array([1, 2])

In [33]:
# 花式索引
sr[['a','b']]

a    1
b    2
dtype: int64

In [34]:
# 标签索引切片
# 前包：后包
sr['b':'d']

b    2
dtype: int64

#### 整数索引
> 整数索引在切片中会被定义成标签索引

In [35]:
sr = pd.Series(np.arange(20))

In [36]:
sr2 = sr[10:].copy()

In [37]:
# Series如果用整数当做索引
# 切片中的值一定解释为"标签索引"
sr2[10]

10

In [38]:
# 因为sr2用了整数索引
# 所以切片中的值被当做了标签索引
# 标签索引不能做-1运算，所以报错
sr2[-1]

KeyError: -1

In [None]:
# 解决整数索引切片被当做标签索引
# xxx.loc 中括号解释为标签索引
# 该方法在新版本中舍弃
sr2.loc[10]

In [None]:
# xxx.iloc 中括号解释为下标
sr2.iloc[9]

### 数据对齐
> 在进行两个series对象运算时，会按照索引进行对齐计算

In [None]:
sr1 = pd.Series([1,2,3,4], index=['a','b','c','d'])
sr2 = pd.Series([4,3,2,1], index=['d','c','b','a'])
sr1 +sr2

In [None]:
# 数据对齐 补缺
sr1 = pd.Series([1,2,3,4], index=['a','b','c','d'])
sr2 = pd.Series([4,3,2,1], index=['d','c','e','a'])
sr1 +sr2

In [None]:
# 如果为nan的值自动填充为 fill_value 指定的值
sr1.add(sr2, fill_value=0)

### 缺失值处理

In [None]:
# 判断缺失值
sr = sr1+sr2
sr.isnull()  # sr.isnotnull()

In [None]:
# 删除缺失处理
# sr[sr.notnull()] #等价于：
sr.dropna()

In [None]:
# 给nan设定默认值
sr.fillna(0)

In [None]:
# 给nan设定平均值
sr.fillna(sr.mean())

## DataFrame
> 表格型数据结构，含有一组有序序列
> 由Series组成的字典，并且公用一个索引


In [None]:
# 创建DataFrame
pd.DataFrame({'one':[1,2,3],'two':[4,5,6]},index=['a','b','c'])

In [None]:
# 创建DataFrame
df = pd.DataFrame({'one':pd.Series([1,2,3], index=['a','b','c']),'two':pd.Series([1,2,3,4], index=['b','a','c','d'])})
df

### 常用属性
> index 获取索引
T 转置
columns 获取列索引
values 获取值数组
describe（） 获取快速统计

In [None]:
# 行索引
df.index

In [None]:
# 值
df.values

In [None]:
# 转置
df.T

In [None]:
# 列索引
df.columns

In [None]:
# 统计描述
df.describe()

### 索引和切片

In [None]:
# 通过标签的方式切片 行，列
df.loc['a','one']

In [None]:
# 整行切片
df.loc['a',:]

In [None]:
# 花式索引
df.loc[['a','c'],:]

In [None]:
df.loc[['a','c'],'two']

In [None]:
del df
df = pd.DataFrame({'two':[1,2,3,4],'one':[4,5,6,7]}, index=['c','d','b','a'])

In [None]:
df2 = pd.DataFrame({'one':pd.Series([1,2,3], index=['a','b','c']),'two':pd.Series([1,2,3,4], index=['b','a','c','d'])})

In [None]:
df

In [None]:
df2

In [None]:
df+df2

#### 缺失数据

In [None]:
df2.fillna(0)

In [None]:
# pd的dataframe的dropna是把有缺失值的整行删掉
df2.dropna()

In [None]:
# 两行都是nun才会删除整行,默认='any'
df2.dropna(how='all')

In [None]:
# 删除一列的nan值
df2
# df.dropna(axis=1)

In [None]:
# 删除一列的nan值
# axis代表很纵坐标轴，0：横轴 1：纵轴
df2.loc['c','one']=np.nan
df2.dropna(axis=1)

 ## pandas 常用函数
 > mean（axis=0，skipna=Flase） 对列、行求平均值
 sum（axis=1） 对列/行求和
 sort_index(axis,...,ascending) 队、列行索引排序
 sort_values(by,axis,ascending)  对某一列、行的值排序
 NumPy 的通用函数同样适用于panads

In [None]:
df.loc['c','one']=np.nan
df

In [None]:
# 列取平均值，返回series对象
df.mean()

In [None]:
# 行取平均值
df.mean(axis=1)

In [None]:
# 按列求和
df.sum()

In [None]:
# 按行求和
df.sum(axis=1)

In [None]:
# 按列值排序(输入列名)
# 有缺失值的列不参与排序统一放最后边
df.sort_values(by='two')

In [None]:
# 按列值排序,降序
df.sort_values(by='two', ascending=False)

In [None]:
# 按行排序 降序
# axis表示从纵坐标找到a，并且在a这一行的值从大到小排列
df.sort_values(by='a', ascending=False, axis=1)

In [None]:
# 按索引排序 降序
df.sort_index(ascending=False)

In [None]:
# 按索引排序 降序 按行排序
# two 在one 前面
df.sort_index(ascending=False, axis=1)

## 时间序列

In [None]:
 # 时间字符串转换时间对象
pd.to_datetime(['2021-01-01','2022-feb-01'])

In [None]:
# 时间范围
# periods 时间长度
# pd.date_range('2022-01-01','2022-01-10')
pd.date_range('2022-01-01',periods=10)

In [None]:
# 时间频率(单位)
pd.date_range('2022-01-01',periods=10, freq='H')

In [None]:
# 每周的周一
pd.date_range('2022-01-01',periods=10, freq='W-MON')

In [None]:
# 工作日
pd.date_range('2022-01-01',periods=10, freq='B')

### 时间序列

In [None]:
sr = pd.Series(np.arange(100), index=pd.date_range('2022-01-01', periods=100))
sr

In [None]:
# 选取时间序列中的一段
sr['2022-03']

In [None]:
# 重新取样
# 每周数据的总和
sr.resample('w').sum()

## 文件读取

In [None]:
# 读取文件，并将日期作为索引，且将日期转换成日期对象
pd.read_csv('./Temp.csv', index_col='日期',parse_dates=True)

In [None]:
# 生成列名
pd.read_csv('./Temp.csv',header=None)

In [None]:
# 添加列名
pd.read_csv('./Temp.csv',header=None, names=list('abcdefgh'))

In [None]:
# 指定哪些字符是nan
# na_values=[]
pd.read_csv('./Temp.csv', index_col='日期', parse_dates=True, na_values=['nan', 'Nan'])