In [2]:
import numpy as np
import pandas as pd


# 1. 通用函数

### 1. 保留索引

在使用 np 中的通用函数时，会保留索引，只对数值内容进行计算


In [3]:
# 数据准备
ser = pd.Series(np.random.randint(0, 10, 4))
df = pd.DataFrame(np.random.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])


In [4]:
np.exp(ser)


0    8103.083928
1       1.000000
2      20.085537
3     148.413159
dtype: float64

In [5]:
np.sin(df*np.pi/4)


Unnamed: 0,A,B,C,D
0,0.7071068,-0.7071068,0.0,0.707107
1,1.224647e-16,-2.449294e-16,0.707107,-0.707107
2,0.7071068,-0.7071068,1.0,0.707107


### 2. 索引对齐
在两个DataFrame或Series进行运算时，会自动对齐索引。

对两个数据的索引作并集，其中无数据的部分用NaN填充

In [6]:
# Series 索引对齐
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                              'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                                    'New York': 19651127}, name='population')

population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [8]:
# 可以指定填充来处理NaN
area.add(population, fill_value= 0.1)

Alaska         1723337.1
California    38756488.0
New York      19651127.1
Texas         27143855.0
dtype: float64

# 2. 处理缺失值

**在numpy中，存在两种缺失值，NaN和None。**

其中None是Python中的缺失值，是以Python类，即object类型进行存储的。

而NaN是指缺失浮点数，在实际使用中的缺失值往往是指NaN

**而在Pandas中，会自动将None转换为NaN**

In [11]:
# 使用np.nan手动声明缺失值
vals = np.array([1,np.nan,3,4])
vals

array([ 1., nan,  3.,  4.])

In [15]:
# 由于nan和其他数据计算式均会成为nan，所以普通组间计算均不能正常使用
print(vals.sum())
print(vals.min())

# 可以使用忽略缺失值版本的函数来计算
print(np.nansum(vals))
print(np.nanmin(vals))

nan
nan
8.0
1.0


In [17]:
# pandas中None自动转化为NaN
pd.Series([1,None,2,3])

0    1.0
1    NaN
2    2.0
3    3.0
dtype: float64

### 1. 发现缺失值方法

In [19]:
data = pd.Series([1,np.nan,"hello",None])

# 发现缺失值
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [21]:
# 筛选出非缺失值
data[data.notnull()]

0        1
2    hello
dtype: object

### 2. 剔除缺失值方法

In [22]:
# 剔除缺失值
data.dropna()

0        1
2    hello
dtype: object

In [24]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])

# 在DataFrame中，dropna会剔除包含nan的证行数据
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [25]:
# 可以手动指定剔除整列数据
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


In [26]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [29]:
# 通过how来自定义去除规则
# how = ’any‘ 默认值，只要有缺失值就剔除整行
# how = ’all‘ 全部为缺失值则剔除整行
df.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [32]:
# 还可以用thresh参数指定非缺失值的最少数量
# 注意是非缺失值，不是缺失值
df.dropna(thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


### 3. 填充缺失值方法

In [34]:
# 填充缺失值
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
# 指定数字填充
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [35]:
# 用缺失值前面的有效值填充
data.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [36]:
# 用缺失值后面的有效值填充
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [39]:
# 在填充DataFrame时，需要指定行/列
df.fillna(method='ffill',axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0
