# pandas做数据分析(三):常用预处理操作

在数据分析和机器学习的一些任务里面,对于数据集的某些列或者行丢弃，以及数据集之间的合并操作是非常常见的.

# 一.合并操作
Ⅰ.pandas.merge  

pandas.merge(left, right, how=’inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(‘_x’, ‘_y’), copy=True, indicator=False)

# Ⅱ.pandas.concat

# 二.丢弃操作
Ⅲ.pandas.DataFrame.drop  

DataFrame.drop(labels, axis=0, level=None, inplace=False, errors=’raise’)

In [3]:
import numpy as np
import pandas as pd


df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],
                   'C': [1, 2, 3]})
print("original:\n",df)

#get1接受的是第0行（因为这个时候axis=0）移除之后的新对象
#因为inplace默认是False，所以df不会有变化
get1=df.drop(labels=0)
print("df:\n",df)
print("get1:\n",get1)

#因为inplace这时候是True，所以df会变化，同时get2接受的是None值
get2=df.drop(labels=0,inplace=True)
print("df:\n",df)
print("get1:\n",get2)

#这个时候是移除列了，对比上面来看
get3=df.drop(labels="A",axis=1)
print("df:\n",df)
print("get3:\n",get3)

original:
    A  B  C
0  a  b  1
1  b  a  2
2  a  c  3
df:
    A  B  C
0  a  b  1
1  b  a  2
2  a  c  3
get1:
    A  B  C
1  b  a  2
2  a  c  3
df:
    A  B  C
1  b  a  2
2  a  c  3
get1:
 None
df:
    A  B  C
1  b  a  2
2  a  c  3
get3:
    B  C
1  a  2
2  c  3


# Ⅳ.pandas.DataFrame.pop
DataFrame.pop(item)

# 三.编码
1.pandas.get_dummies()  

把类别量装换为指示变量(其实就是one-hot encoding)  


pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False)

## 例1.Series

In [4]:
import numpy as np
import pandas as pd

#对于一个Series来说,行数保持不变,列数变为不同类的个数
#但是每一行还是以编码的形式表示原来的类别
#这个函数返回是一个DataFrame,其中列名为各种类别
s = pd.Series(list('abca'))
print("original:")
print(s)
print("get dummy:")
s_dummy=pd.get_dummies(data=s)
print(s_dummy)
print("type of s_dummy:",type(s_dummy))

original:
0    a
1    b
2    c
3    a
dtype: object
get dummy:
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0
type of s_dummy: <class 'pandas.core.frame.DataFrame'>


## 例2.DataFrame

In [15]:
import numpy as np
import pandas as pd

df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],
                   'C': [1, 2, 3]})
print("original:")
print(df)

#其中只要是类别相关的,都会被hot-encoding
#每一个特征(原始形式的列名)下面有几种不同的类别,就会生成几列(比如A下面只有a和b两种形式,就会生成A_a和A_b两列)
#原始为数字的那些特征,保持不变
#prefix表示你对于新生成的那些列想要的前缀,你可以自己命名
df_dummy=pd.get_dummies(data=df,prefix=["A","B"])
print("get dummy:")
print(df_dummy)

original:
   A  B  C
0  a  b  1
1  b  a  2
2  a  c  3
get dummy:
   C  A_a  A_b  B_a  B_b  B_c
0  1    1    0    0    1    0
1  2    0    1    1    0    0
2  3    1    0    0    0    1


In [23]:
import numpy as np
import pandas as pd

df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],
                   'C': [1, 2, 3]})
print("original:")
print(df)
df_dummy=pd.get_dummies(data=df,prefix=["A"],columns=["B"])
print("get dummy:")
print(df_dummy)

original:
   A  B  C
0  a  b  1
1  b  a  2
2  a  c  3
get dummy:
   A  C  A_a  A_b  A_c
0  a  1    0    1    0
1  b  2    1    0    0
2  a  3    0    0    1


In [19]:
help get_dummies

SyntaxError: invalid syntax (<ipython-input-19-fa834a2ba503>, line 1)

# 三.处理缺失值
pandas使用浮点数NaN(not a number)表示浮点和非浮点数组中的缺失数据.   

pandas中,自己传入的np.nan或者是python内置的None值,都会被当做NaN处理,如下例.

In [7]:
import numpy as np
import pandas as pd

s=pd.Series(data=["tom","jack","kate",np.nan])
print(s)

s[0]=None
print(s)

0     tom
1    jack
2    kate
3     NaN
dtype: object
0    None
1    jack
2    kate
3     NaN
dtype: object


## Ⅰ.查找缺失值
DataFrame.isnull()

In [9]:
import numpy as np
import pandas as pd

s=pd.Series(data=["tom","jack","kate",np.nan])
print(s)

print(s.isnull())
print(type(s.isnull()))

df = pd.DataFrame({'A': ['a', 'b', np.nan], 'B': ['b', 'a', 'c'],
                   'C': [1, 2, np.nan]})
print("original:")
print(df)
print(df.isnull())

0     tom
1    jack
2    kate
3     NaN
dtype: object
0    False
1    False
2    False
3     True
dtype: bool
<class 'pandas.core.series.Series'>
original:
     A  B    C
0    a  b  1.0
1    b  a  2.0
2  NaN  c  NaN
       A      B      C
0  False  False  False
1  False  False  False
2   True  False   True


## Ⅱ.填充缺失值
pandas.DataFrame.fillna  

使用指定的方法来填充缺失值,并且返回被填充好的DataFrame  


DataFrame.fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=None, **kwargs)  


参数:

# Ⅲ.丢弃缺失值