In [1]:
import numpy as np
import pandas as pd

dates = pd.date_range('20190301', periods=6)
df = pd.DataFrame(np.arange(24).reshape(6, 4), index=dates, columns=['A', 'B', 'C', 'D'])
print(df)
print('------------------')
df.iloc[2, 2] = 111  # 给第2行第2列的元素赋值
df.loc['20190303', 'B'] = 232  # 给行索引为2019-03-03，列索引为B的元素赋值
df.B[df.A > 4] = 0   #把A列大于4的元素同行的B列元素都改成0
df.C = 1   # 把第C列全部变成1
df.iloc[2, 3] = np.nan
df.iloc[3, 3] = np.nan
df['E'] = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20190301',periods=6)) # 增加一列，因为每一列都是一个Series
print(df)

             A   B   C   D
2019-03-01   0   1   2   3
2019-03-02   4   5   6   7
2019-03-03   8   9  10  11
2019-03-04  12  13  14  15
2019-03-05  16  17  18  19
2019-03-06  20  21  22  23
------------------
             A  B  C     D  E
2019-03-01   0  1  1   3.0  1
2019-03-02   4  5  1   7.0  2
2019-03-03   8  0  1   NaN  3
2019-03-04  12  0  1   NaN  4
2019-03-05  16  0  1  19.0  5
2019-03-06  20  0  1  23.0  6


In [2]:
# pandas丢弃不完整数据，元素值为NAN
print(df.dropna()) # 默认丢掉存在nan元素的行，可以使用axis参数来丢掉列，可选参数how，有‘any’和'all'两个参数
print(df.dropna(axis=1))
print(df.dropna(axis=0, how='all')) # any表示只要有一个就丢弃，all表示全部都是nan才丢弃

             A  B  C     D  E
2019-03-01   0  1  1   3.0  1
2019-03-02   4  5  1   7.0  2
2019-03-05  16  0  1  19.0  5
2019-03-06  20  0  1  23.0  6
             A  B  C  E
2019-03-01   0  1  1  1
2019-03-02   4  5  1  2
2019-03-03   8  0  1  3
2019-03-04  12  0  1  4
2019-03-05  16  0  1  5
2019-03-06  20  0  1  6
             A  B  C     D  E
2019-03-01   0  1  1   3.0  1
2019-03-02   4  5  1   7.0  2
2019-03-03   8  0  1   NaN  3
2019-03-04  12  0  1   NaN  4
2019-03-05  16  0  1  19.0  5
2019-03-06  20  0  1  23.0  6


In [3]:
# pnadas填充不完整的数据,参数value表示要填充的数据
print(df.fillna(value=0))

             A  B  C     D  E
2019-03-01   0  1  1   3.0  1
2019-03-02   4  5  1   7.0  2
2019-03-03   8  0  1   0.0  3
2019-03-04  12  0  1   0.0  4
2019-03-05  16  0  1  19.0  5
2019-03-06  20  0  1  23.0  6


In [4]:
# pandas检查数据是否缺失, False表示无，True表示有
print(df.isnull())
print("----------------------")
print(np.any(df.isnull()) == True) # 如果数据表格太大，可以使用这个方法，只要有一个为True，就会返回True，否则返回False

                A      B      C      D      E
2019-03-01  False  False  False  False  False
2019-03-02  False  False  False  False  False
2019-03-03  False  False  False   True  False
2019-03-04  False  False  False   True  False
2019-03-05  False  False  False  False  False
2019-03-06  False  False  False  False  False
----------------------
True


In [8]:
# pandas 读取csv文件
data = pd.read_csv('F:\machine_learing\california_housing_train.csv')
# 将数据转成成pickle文件
data.to_pickle("test.pickle")

In [27]:
#  合并多个DataFrame， concat（concatenating）函数
df1 = pd.DataFrame(np.ones((3, 4)) * 0, columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4)) * 1, columns=['a', 'b', 'c', 'd'])
df3 = pd.DataFrame(np.ones((3, 4)) * 2, columns=['a', 'b', 'c', 'd'])
res = pd.concat([df1, df2, df3],axis=0)  # 合并多个DataFrame，axis=0表示垂直合并，axis=1表示水平合并，默认为0
print(res)
# 我们如果要让index连续，则可以使用ignore_index参数，为True表示忽略索引，从0开始计算
res = pd.concat([df1, df2, df3],axis=0, ignore_index=True)
print('-----------------------')
print(res)

     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
0  1.0  1.0  1.0  1.0
1  1.0  1.0  1.0  1.0
2  1.0  1.0  1.0  1.0
0  2.0  2.0  2.0  2.0
1  2.0  2.0  2.0  2.0
2  2.0  2.0  2.0  2.0
-----------------------
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
6  2.0  2.0  2.0  2.0
7  2.0  2.0  2.0  2.0
8  2.0  2.0  2.0  2.0


In [39]:
# pandas concat函数的join参数
df1 = pd.DataFrame(np.ones((3, 4)) * 0, index=[1, 2, 3], columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4)) * 1, index=[2, 3, 4], columns=['b', 'c', 'd', 'e'])
print(pd.concat([df1, df2], join='outer'))  # join参数默认是outer，会把不存在的那些值用NAN填充，比如df1没有e这一列，则用NAN填充这一列
print(pd.concat([df1, df2], join='inner'))  # inner参数会合并所以数据存在的索引，如果不存在则会舍弃，例如df1和df2公共列为b,c,d

     a    b    c    d    e
1  0.0  0.0  0.0  0.0  NaN
2  0.0  0.0  0.0  0.0  NaN
3  0.0  0.0  0.0  0.0  NaN
2  NaN  1.0  1.0  1.0  1.0
3  NaN  1.0  1.0  1.0  1.0
4  NaN  1.0  1.0  1.0  1.0
     b    c    d
1  0.0  0.0  0.0
2  0.0  0.0  0.0
3  0.0  0.0  0.0
2  1.0  1.0  1.0
3  1.0  1.0  1.0
4  1.0  1.0  1.0


In [43]:
# conat函数的join_axes参数,
print(pd.concat([df1, df2], axis=1,join_axes=[df1.index])) #表示按照df1的index水平合并，如果df2没有df1的index，则用NAN填充
print('---------------------')
print(pd.concat([df1, df2], axis=0,join_axes=[df1.columns])) # 表示按照df2的columns垂直合并，如果df2没有df1的columns则用NAN填充

     a    b    c    d    b    c    d    e
1  0.0  0.0  0.0  0.0  NaN  NaN  NaN  NaN
2  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
3  0.0  0.0  0.0  0.0  1.0  1.0  1.0  1.0
---------------------
     a    b    c    d
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  0.0  0.0  0.0  0.0
2  NaN  1.0  1.0  1.0
3  NaN  1.0  1.0  1.0
4  NaN  1.0  1.0  1.0


In [46]:
# pandas的append方法
df1 = pd.DataFrame(np.ones((3, 4)) * 0, columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4)) * 1, columns=['a', 'b', 'c', 'd'])
df3 = pd.DataFrame(np.ones((3, 4)) * 2, columns=['a', 'b', 'c', 'd'])
print(df1.append(df2, ignore_index=True))  # 一个参数df2
print('-------------------')
print(df1.append([df2, df3], ignore_index=True)) # 使用列表可以使用多个参数


     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
-------------------
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  1.0  1.0  1.0
4  1.0  1.0  1.0  1.0
5  1.0  1.0  1.0  1.0
6  2.0  2.0  2.0  2.0
7  2.0  2.0  2.0  2.0
8  2.0  2.0  2.0  2.0


In [54]:
# pandas append方法添加Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(df1.append(s, ignore_index=True))  # 如果不使用ignore_index参数，则会报错，因为Series没有指定index名
print('----------------------')

# 还可以在Series定义时增加一个name属性
s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'], name = 3)
print(df1.append(s1))

     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  2.0  3.0  4.0
----------------------
     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  1.0  2.0  3.0  4.0
