# 简介

pandas 是数据分析核心工具包，是基于numpy构建的

主要功能：
- 数据结构DataFrame , Series
- 集成时间序列功能
- 提供丰富的数学运算和操作
- 灵活处理缺失数据

安装：pip install pandas

引用：import pandas as pd

# series介绍

是类似于一维数组的对象，有一组数据和一组与之相关的数据标签(索引)组成。

有点像是列表（数组）和字典的结合体

array特性：
- 从ndarray创建Series
- 与标量运算
- 两个Series对象运算
- 索引
- 切片
- 通用函数
- 布尔值过滤

字典特性：
- 从字典创建Series
- in 运算
- 关键字索引



In [1]:
import pandas as pd

In [10]:
pd.Series([1,2,3], index=['11','22','33'])  # 指定标签索引，不会覆盖原有的下标索引，同时也可以通过下标索引取值

11    1
22    2
33    3
dtype: int64

In [8]:
pd.Series([1,2,3])  # 默认索引是从0开始的无符号整型

0    1
1    2
2    3
dtype: int64

## 创建

```python
pd.Series([1,2,3])
pd.Series(np.arange(5))
pd.Series([1,2,3], index=['11','22','33'])
pd.Series({"aa":1, "bb":2})
```

## 属性

```python
# 获取索引
a.index

# 获取值
a.values
```

In [12]:
sr = pd.Series([1,2,3], index=['11','22','33'])
sr

11    1
22    2
33    3
dtype: int64

In [13]:
print(sr[0])
print(sr['11'])

1
1


In [14]:
sr = pd.Series({"aa":1, "bb":2})
sr

aa    1
bb    2
dtype: int64

In [16]:
for i in sr:  # for 遍历时，打印的是值，不是索引
    print(i)

1
2


In [19]:
sr.index

Index(['aa', 'bb'], dtype='object')

## 切片

```python
# 可以通过index来进行切片(是前后都包的)和花式索引
sr = pd.Series({"aa":1, "bb":2})
sr["aa":"bb"]
sr[["aa","bb"]]
```

In [24]:
sr = pd.Series({"aa":1, "bb":2, "cc":3})
sr["aa":"cc"]

aa    1
bb    2
cc    3
dtype: int64

In [25]:
sr[["aa","cc"]]

aa    1
cc    3
dtype: int64

## 整数索引问题

创建一个Series对象时，使用默认的整数索引，对其切片后再拷贝，此时发现其整数索引不是从0开始的。

In [28]:
sr = pd.Series(range(20))
sr1 = sr[10:].copy()
sr1

10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
dtype: int64

In [30]:
sr1[10]  # 当解释时，是根据关键字索引来拿的

10

处理方式：
```python
# 解释为关键字索引取值
sr1.loc[10]

# 解释为下标取值
sr1.iloc[0]
```

使用整数索引取值时，一定要使用loc和iloc进行区分

In [31]:
sr1.loc[11]

11

In [32]:
sr1.iloc[1]

11

## 数据对齐

当两个Series对象进行相加时，元素的相加是根据关键字索引进行对齐相加的

In [35]:
s1 = pd.Series([1,2,3], index=['c','a','d'])
s2 = pd.Series([11,22,33], index=['d','a','c'])
s1+s2

a    24
c    34
d    14
dtype: int64

两个长度不一致的Series对象也可以运算, 不相同的索引值是NaN,数据缺失.

In [36]:
s1 = pd.Series([1,2,3], index=['c','a','d'])
s2 = pd.Series([11,22,33,44], index=['d','a','c','b'])
s1+s2

a    24.0
b     NaN
c    34.0
d    14.0
dtype: float64

当不想要NaN缺省值时，可以使用pandas提供的灵活算数方法来进行, 指定fill_value为0.
```python
add
sub
div
mul
```

In [38]:
s2 = pd.Series([11,22,33], index=['d','c','b'])
s1 = pd.Series([1,2,3], index=['c','a','d'])

s1.add(s2, fill_value=0)

a     2.0
b    33.0
c    23.0
d    14.0
dtype: float64

# 缺失值处理

就是处理NaN数据。

两种处理缺失数据的方式：
1. 删掉缺失数据
2. 加上一个特定值

```python
# 判断是否是缺失数据，每个元素都判断，如果该元素是则其对应位置的值是True，如果不是缺失值则对应位置的值是False.
sr.isnull()

# 与isnull相反，是缺失值返回False,不是缺失值返回True
sr.notnull()

# 删除缺失数据
sr.dropna()

# 将缺省值设定为指定值，可以填充为平均值sr.mean()
sr.fillna(0)
```

In [4]:
sr = pd.Series([33.0,None,32.0,None], index=['a','b','c','d'])
sr

a    33.0
b     NaN
c    32.0
d     NaN
dtype: float64

In [5]:
sr.isnull()

a    False
b     True
c    False
d     True
dtype: bool

In [6]:
sr.notnull()

a     True
b    False
c     True
d    False
dtype: bool

In [7]:
sr[sr.notnull()]

a    33.0
c    32.0
dtype: float64

In [9]:
sr.dropna()

a    33.0
c    32.0
dtype: float64

In [10]:
sr.fillna(0)

a    33.0
b     0.0
c    32.0
d     0.0
dtype: float64

# DataFrame 基础

是二维的数据对象，是一个表格型的数据结构，含有一组有序的列。DataFrame可以看做是由Series组成的字典，并且共用一个行索引。

## 创建

```python
# 根据字典创建，没有指定行索引，是自动生成的，有两列的数据。
pd.DataFrame({'one':[1,2,3], 'two':[4,5,6]})

# 指定索引
pd.DataFrame({'one':[1,2,3], 'two':[4,5,6]}, index=['a', 'b', 'c'])

# 根据Serires创建, 列的key是字典的key，行的key是Series的索引
a1 = pd.Series([1,2,3], index=['a','b','c'])
a2 = pd.Series([4,5,6,7], index=['a','b','c', 'd'])
pd.DataFrame({'one':a1, 'two':a2})

# 从csv文件创建，csv是以逗号分隔的
pd.read_csv('tesr.csv')

```

In [12]:
pd.DataFrame({'one':[1,2,3], 'two':[4,5,6]})

Unnamed: 0,one,two
0,1,4
1,2,5
2,3,6


In [16]:
pd.DataFrame({'one':[1,2,3], 'two':[4,5,6]}, index=['a', 'b', 'c'])

Unnamed: 0,one,two
a,1,4
b,2,5
c,3,6


In [19]:
a1 = pd.Series([1,2,3], index=['a','b','c'])
a2 = pd.Series([4,5,6,7], index=['a','b','c', 'd'])

pd.DataFrame({'one':a1, 'two':a2})

Unnamed: 0,one,two
a,1.0,4
b,2.0,5
c,3.0,6
d,,7


## 常用属性

```python
df1 = pd.DataFrame({'one':[1,2,3], 'two':[4,5,6]})
# 获取行索引
df1.index

# 转置
df1.T

# 获取列索引
df1.columns

# 获取值数组,即一个二维数据
df1.values

# 获取快速统计,d对每一列进行统计：非缺失值的数量，平均值，标准差，最小值，最大值等等。
df1.describe()
```

In [21]:
df1 = pd.DataFrame({'one':[1,2,3], 'two':[4,5,6]})
print(df1)
df1.T
df1.index

   one  two
0    1    4
1    2    5
2    3    6


RangeIndex(start=0, stop=3, step=1)

In [22]:
df1.columns

Index(['one', 'two'], dtype='object')

In [23]:
df1.values

array([[1, 4],
       [2, 5],
       [3, 6]], dtype=int64)

In [24]:
df1.describe()

Unnamed: 0,one,two
count,3.0,3.0
mean,2.0,5.0
std,1.0,1.0
min,1.0,4.0
25%,1.5,4.5
50%,2.0,5.0
75%,2.5,5.5
max,3.0,6.0


## 索引和切片

```python
# 去某个位置的元素，先选择一列在选择一行, 不建议这样取
df1['one', 1]

# 标签的形式来访问， 第一个是行，第二个是列的标签
df1.loc[1, 'one']  # [行标签, 列索引]

# 下标索引
df1.iloc[1,2]

# 花式索引，切片，都可以组合使用
df1.loc[[0,1],:]
```

In [29]:
print(df1)
df1.loc[1, 'one']

   one  two
0    1    4
1    2    5
2    3    6


2

In [31]:
df1.iloc[1,1]

5

In [32]:
df1.loc[[0,1],:]

Unnamed: 0,one,two
0,1,4
1,2,5


## 数据对齐和缺失值处理

DataFrame对象在运算时，同样会进行数据对齐，其行索引和列索引分别对其。


缺失数据处理
```python
# 填充一个值
df1.fillna(0)

# 删除缺失值,如果这一行中有一个缺失值，就将整行删除掉
df1.dropna()

# 删除整行都是缺失值的行, 其默认参数是any，any是只要有一个就删除整行。
df1.dropna(how='all')

# 删除一列缺失值,axis默认是0，表示行；1表示列
df1.drapna(axis=1)
```

In [40]:
df1 = pd.DataFrame({'one':[1,2,3], 'two':[4,5,6]}, index=['a', 'b', 'c'])
df2 = pd.DataFrame({'one':[1,2,3,4], 'two':[4,5,6,7]}, index=['a', 'b', 'c','d'])
df3 = df2+df1
print(df3)

df3.fillna(0)

   one   two
a  2.0   8.0
b  4.0  10.0
c  6.0  12.0
d  NaN   NaN


Unnamed: 0,one,two
a,2.0,8.0
b,4.0,10.0
c,6.0,12.0
d,0.0,0.0


In [43]:
import numpy as np
df3.loc['a','two'] = np.nan
df3

Unnamed: 0,one,two
a,2.0,
b,4.0,10.0
c,6.0,12.0
d,,


In [44]:
df3.dropna()

Unnamed: 0,one,two
b,4.0,10.0
c,6.0,12.0


In [45]:
df3.dropna(how='all')

Unnamed: 0,one,two
a,2.0,
b,4.0,10.0
c,6.0,12.0


In [51]:
df3.dropna(axis=0)

Unnamed: 0,one,two
b,4.0,10.0
c,6.0,12.0


## 常用函数

numpy的通用函数同样适用于pandas
```python
# 对 列（行）求平均值，1是行，0是列
df.mean(axis=0, skipna=False)  # 返回的是长度为2的Series对象

# 对列(行)求和
df.sum(axis=0)

# 索引排序，可指定行列， 所有nan的行或者列不参与排序，统一放到最后。
df.sort_values(axis=1, by='a', ascending=Fasle)  # 按行降序
df.sort_values(by='two')  # 按某一列排序

# 值排序，可指定行列, 默认按行索引排序，1是按列索引排序
df.sort_index(axis,ascending）
```

In [48]:
df3.mean(axis=1)

a    2.0
b    7.0
c    9.0
d    NaN
dtype: float64

In [53]:
df3.sort_values(by='one')

Unnamed: 0,one,two
a,2.0,
b,4.0,10.0
c,6.0,12.0
d,,


In [54]:
df3.sort_values(axis=1,by='b')

Unnamed: 0,one,two
a,2.0,
b,4.0,10.0
c,6.0,12.0
d,,


In [59]:
df3.sort_index(ascending=False)

Unnamed: 0,one,two
d,,
c,6.0,12.0
b,4.0,10.0
a,2.0,


In [60]:
df3.sort_index(axis=1,ascending=False)

Unnamed: 0,two,one
a,,2.0
b,10.0,4.0
c,12.0,6.0
d,,


## 时间处理对象

```python
import dateutil

# 字符串时间转换成时间对象
dateutil.parser.pase('2021-12-06)

# pandas 批量将字符串时间格式转换为时间对象
pd.to_datetime(['2021-01-01','2021/01/02'])
                     
# 生成时间范围
pd.date_range('2010-01-01', '2020/02/02')
pd.date_range('2010-01-01', periods=60)  # 不指定end时间，指定长度，，生成60天的时间
pd.date_range('2010-01-01', periods=30, dreq='H')  # 指定频率，按小时为单位
                     
# pandas生成的时间对象转为py的datetime对象
pd.date_range('2010-01-01', '2020/02/02')[0].to_pydatetime()  # 转为py的datetime对象
```

In [66]:
import dateutil
d = dateutil.parser.parse('2021-12-06')
print(d)
type(d)

2021-12-06 00:00:00


datetime.datetime

In [69]:
pd.to_datetime(['2021-01-01','2021/01/02'])

DatetimeIndex(['2021-01-01', '2021-01-02'], dtype='datetime64[ns]', freq=None)

In [70]:
pd.date_range('2010-01-01', '2020/02/02')

DatetimeIndex(['2010-01-01', '2010-01-02', '2010-01-03', '2010-01-04',
               '2010-01-05', '2010-01-06', '2010-01-07', '2010-01-08',
               '2010-01-09', '2010-01-10',
               ...
               '2020-01-24', '2020-01-25', '2020-01-26', '2020-01-27',
               '2020-01-28', '2020-01-29', '2020-01-30', '2020-01-31',
               '2020-02-01', '2020-02-02'],
              dtype='datetime64[ns]', length=3685, freq='D')

In [72]:
pd.date_range('2010-01-01', periods=20)

DatetimeIndex(['2010-01-01', '2010-01-02', '2010-01-03', '2010-01-04',
               '2010-01-05', '2010-01-06', '2010-01-07', '2010-01-08',
               '2010-01-09', '2010-01-10', '2010-01-11', '2010-01-12',
               '2010-01-13', '2010-01-14', '2010-01-15', '2010-01-16',
               '2010-01-17', '2010-01-18', '2010-01-19', '2010-01-20'],
              dtype='datetime64[ns]', freq='D')

In [76]:
d1 = pd.date_range('2010-01-01', periods=30, freq='H')
d1

DatetimeIndex(['2010-01-01 00:00:00', '2010-01-01 01:00:00',
               '2010-01-01 02:00:00', '2010-01-01 03:00:00',
               '2010-01-01 04:00:00', '2010-01-01 05:00:00',
               '2010-01-01 06:00:00', '2010-01-01 07:00:00',
               '2010-01-01 08:00:00', '2010-01-01 09:00:00',
               '2010-01-01 10:00:00', '2010-01-01 11:00:00',
               '2010-01-01 12:00:00', '2010-01-01 13:00:00',
               '2010-01-01 14:00:00', '2010-01-01 15:00:00',
               '2010-01-01 16:00:00', '2010-01-01 17:00:00',
               '2010-01-01 18:00:00', '2010-01-01 19:00:00',
               '2010-01-01 20:00:00', '2010-01-01 21:00:00',
               '2010-01-01 22:00:00', '2010-01-01 23:00:00',
               '2010-01-02 00:00:00', '2010-01-02 01:00:00',
               '2010-01-02 02:00:00', '2010-01-02 03:00:00',
               '2010-01-02 04:00:00', '2010-01-02 05:00:00'],
              dtype='datetime64[ns]', freq='H')

In [90]:
print(d1[1])
d1[0].to_pydatetime()  # 转为py的datetime对象

2010-01-01 01:00:00


datetime.datetime(2010, 1, 1, 0, 0)

## 时间序列

时间序列就是以时间对象为索引的Serie或DataFrame

In [95]:
pdd = pd.Series(np.arange(100), index=pd.date_range('2021-1-1', periods=100))
pdd

2021-01-01     0
2021-01-02     1
2021-01-03     2
2021-01-04     3
2021-01-05     4
              ..
2021-04-06    95
2021-04-07    96
2021-04-08    97
2021-04-09    98
2021-04-10    99
Freq: D, Length: 100, dtype: int32

In [96]:
pdd['2021-1']

2021-01-01     0
2021-01-02     1
2021-01-03     2
2021-01-04     3
2021-01-05     4
2021-01-06     5
2021-01-07     6
2021-01-08     7
2021-01-09     8
2021-01-10     9
2021-01-11    10
2021-01-12    11
2021-01-13    12
2021-01-14    13
2021-01-15    14
2021-01-16    15
2021-01-17    16
2021-01-18    17
2021-01-19    18
2021-01-20    19
2021-01-21    20
2021-01-22    21
2021-01-23    22
2021-01-24    23
2021-01-25    24
2021-01-26    25
2021-01-27    26
2021-01-28    27
2021-01-29    28
2021-01-30    29
2021-01-31    30
Freq: D, dtype: int32

In [97]:
pdd['2021-1':'2021-2']

2021-01-01     0
2021-01-02     1
2021-01-03     2
2021-01-04     3
2021-01-05     4
2021-01-06     5
2021-01-07     6
2021-01-08     7
2021-01-09     8
2021-01-10     9
2021-01-11    10
2021-01-12    11
2021-01-13    12
2021-01-14    13
2021-01-15    14
2021-01-16    15
2021-01-17    16
2021-01-18    17
2021-01-19    18
2021-01-20    19
2021-01-21    20
2021-01-22    21
2021-01-23    22
2021-01-24    23
2021-01-25    24
2021-01-26    25
2021-01-27    26
2021-01-28    27
2021-01-29    28
2021-01-30    29
2021-01-31    30
2021-02-01    31
2021-02-02    32
2021-02-03    33
2021-02-04    34
2021-02-05    35
2021-02-06    36
2021-02-07    37
2021-02-08    38
2021-02-09    39
2021-02-10    40
2021-02-11    41
2021-02-12    42
2021-02-13    43
2021-02-14    44
2021-02-15    45
2021-02-16    46
2021-02-17    47
2021-02-18    48
2021-02-19    49
2021-02-20    50
2021-02-21    51
2021-02-22    52
2021-02-23    53
2021-02-24    54
2021-02-25    55
2021-02-26    56
2021-02-27    57
2021-02-28    

In [98]:
pdd.resample('w').sum()  # 每一周的和

2021-01-03      3
2021-01-10     42
2021-01-17     91
2021-01-24    140
2021-01-31    189
2021-02-07    238
2021-02-14    287
2021-02-21    336
2021-02-28    385
2021-03-07    434
2021-03-14    483
2021-03-21    532
2021-03-28    581
2021-04-04    630
2021-04-11    579
Freq: W-SUN, dtype: int32

## 文件读取

从文件名，url，文件对象中加载数据

```python
# index_col指定作为标签索引是那一列
pd.read_csv('xx.csv', index_col='date', parse_dates=['date'])  # parse_dates也可以设定为True，则数据中所有时间字符串都会转换成时间对象，传入列表只转换指定的列。
read_table
```