# Pandas

pandas是一个强大的python数据分析的工具包，是基于NumPy构建的。

pandas的主要功能

    具备对其功能的数据结构DataFrame、Series
    
    集成时间序列功能
    
    提供丰富的数学运算和操作
    
    灵活处理缺失数据


## Series

### Series——一维矩阵对象

Series是一种类似于一维矩阵的对象，由一组数据和与之相关的数据标签（索引）组成。

获取值矩阵和索引矩阵：values属性和index属性

Series像是列表和字典的结合体

Series的创建方式：

In [1]:
import pandas as pd

In [2]:
pd.Series([1, 3, 5, 7, 9])

0    1
1    3
2    5
3    7
4    9
dtype: int64

In [3]:
pd.Series([1, 3, 5, 7, 9], index = ['a', 'b', 'c', 'd', 'e'])

a    1
b    3
c    5
d    7
e    9
dtype: int64

In [4]:
pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':9})

a    1
b    3
c    5
d    7
e    9
dtype: int64

In [5]:
pd.Series(0, index = ['a', 'b', 'c', 'd', 'e'])

a    0
b    0
c    0
d    0
e    0
dtype: int64

### Series——使用特性

Series支持array的特性（下标）：

    从ndarray创建Series
    
    与标量运算
    
    两个Series运算
    
    索引取值
    
    切片
    
    ndarray通用函数
    
    布尔值过滤
    
Series支持字典的特性（标签）：

    从字典创建series
    
    in运算
    
    键索引

### Series——整数索引

如果索引是整数类型，则根据整数进行下标获取值时总是面向标签的。

loc属性：将索引解释为标签

iloc属性：将索引解释为下标

### Series——数据对齐

pandas在进行两个Series对象的运算时，会按索引进行对齐然后计算。

灵活的算术方法：add, sub, div, mul

In [6]:
sr1 = pd.Series([12, 23, 34], index = ['a', 'b', 'c'])
sr2 = pd.Series([45, 56, 67], index = ['b', 'c', 'd'])

In [7]:
sr = sr1 + sr2
print(sr)

a     NaN
b    68.0
c    90.0
d     NaN
dtype: float64


In [8]:
sr1.add(sr2, fill_value = 0)

a    12.0
b    68.0
c    90.0
d    67.0
dtype: float64

### 缺失值处理

In [9]:
sr

a     NaN
b    68.0
c    90.0
d     NaN
dtype: float64

In [10]:
sr.isnull()

a     True
b    False
c    False
d     True
dtype: bool

In [11]:
sr.notnull()

a    False
b     True
c     True
d    False
dtype: bool

In [12]:
sr[sr.notnull()]

b    68.0
c    90.0
dtype: float64

In [13]:
sr.dropna()

b    68.0
c    90.0
dtype: float64

In [14]:
sr

a     NaN
b    68.0
c    90.0
d     NaN
dtype: float64

In [15]:
sr.fillna(0)

a     0.0
b    68.0
c    90.0
d     0.0
dtype: float64

In [16]:
sr

a     NaN
b    68.0
c    90.0
d     NaN
dtype: float64

In [17]:
sr = sr.fillna(0)

In [18]:
sr

a     0.0
b    68.0
c    90.0
d     0.0
dtype: float64

In [19]:
sr = sr1 + sr2

In [20]:
sr.fillna(sr.mean())

a    79.0
b    68.0
c    90.0
d    79.0
dtype: float64

In [21]:
sr.mean()

79.0

## DataFrame

DataFrame是一个表格型的数据结构，含有一组有序的列。

DataFrame可以被看作是由Series组成的字典，并且共用一个索引。

### DataFrame创建

In [22]:
pd.DataFrame({'one':[1, 2, 3], 'two':[4, 5, 6]})

Unnamed: 0,one,two
0,1,4
1,2,5
2,3,6


In [23]:
pd.DataFrame({'one':[1, 2, 3], 'two':[4, 5, 6]}, index = ['a', 'b', 'c'])

Unnamed: 0,one,two
a,1,4
b,2,5
c,3,6


In [24]:
df = _

In [25]:
df

Unnamed: 0,one,two
a,1,4
b,2,5
c,3,6


In [26]:
pd.DataFrame({'one':pd.Series([1, 2, 3], index = ['a', 'b', 'c']), 'two':pd.Series([1, 2, 3, 4], index = ['b', 'a', 'c', 'd'])})

Unnamed: 0,one,two
a,1.0,2
b,2.0,1
c,3.0,3
d,,4


### csv文件


In [27]:
df.to_csv("test.csv")

In [28]:
!cat test.csv

,one,two
a,1,4
b,2,5
c,3,6


In [29]:
pd.read_csv("test.csv")

Unnamed: 0.1,Unnamed: 0,one,two
0,a,1,4
1,b,2,5
2,c,3,6


### DataFrame——常用属性

| code | attribute |
| --- | --- |
| index | 获取索引 |
| T | 转置 |
| columns | 获取列索引 |
| values | 获取值矩阵 |
| describe() | 获取快速统计 |

In [37]:
df

Unnamed: 0,one,two
a,1,4
b,2,5
c,3,6


In [38]:
df.index

Index(['a', 'b', 'c'], dtype='object')

In [39]:
df.columns

Index(['one', 'two'], dtype='object')

In [40]:
df.T

Unnamed: 0,a,b,c
one,1,2,3
two,4,5,6


In [41]:
df.describe()

Unnamed: 0,one,two
count,3.0,3.0
mean,2.0,5.0
std,1.0,1.0
min,1.0,4.0
25%,1.5,4.5
50%,2.0,5.0
75%,2.5,5.5
max,3.0,6.0


In [42]:
df

Unnamed: 0,one,two
a,1,4
b,2,5
c,3,6


In [43]:
df.values

array([[1, 4],
       [2, 5],
       [3, 6]])

### DataFrame——索引和切片

DataFrame是一个二维数据类型，所以有行索引和列索引。

DataFrame同样可以通过标签和位置两种方法进行索引和切片。

loc属性和iloc属性
    
    使用方法：逗号隔开，前面是行索引，后面是列索引
    
    行/列索引部分可以是常规索引、切片、布尔值索引、花式索引任意搭配

In [44]:
df["one"]["a"]

1

In [46]:
df.loc['a', :]

one    1
two    4
Name: a, dtype: int64

In [47]:
df.loc[['a', 'c'], :]

Unnamed: 0,one,two
a,1,4
c,3,6
