# 整理数据

什么是整洁数据

1. 每个观测值成一行

2. 每个变量成一列

3. 每种观测单元构成一张表格

## 连接(concatenation)

把某行或某列追加到数据中，如果数据分割成了很多部分，或者你执行了某个计算并且想要将其追加到现有数据集，可以使用连接

例如Pandas中的concat

### 1.添加行

In [1]:

import pandas as pd

In [3]:
df1 = pd.read_csv('../data/concat_1.csv')
df2 = pd.read_csv('../data/concat_2.csv')
df3 = pd.read_csv('../data/concat_3.csv')

In [5]:
print(df1)
print(df2)
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
    A   B   C   D
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
     A    B    C    D
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [6]:
#concat将上面3个DataFrame连接起来
row_concat = pd.concat([df1,df2,df3])
print(row_concat)


     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


可以发现上述例子只是简单的原始行索引堆叠（并没有合并）

In [21]:
#获取第四行
print(row_concat.iloc[4:6])

    A   B   C   D
0  a4  b4  c4  d4
1  a5  b5  c5  d5


In [18]:
print(row_concat.loc())

<pandas.core.indexing._LocIndexer object at 0x0000026B708D1728>


### 新建一个Series并将其添加到一个DataFrame中

In [23]:
new_row_series = pd.Series(['n1','n2','n3','n4'])
print(new_row_series)

0    n1
1    n2
2    n3
3    n4
dtype: object


In [31]:
print(pd.concat([df1,new_row_series]))
print(new_row_series.index)
print(df1.index)
print(new_row_series.values)
print(df1.columns)

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4
RangeIndex(start=0, stop=4, step=1)
RangeIndex(start=0, stop=4, step=1)
['n1' 'n2' 'n3' 'n4']
Index(['A', 'B', 'C', 'D'], dtype='object')


可以看到df1和new_row_series的行索引是一样的，但是series没有匹配的列，所以将new_row添加到新列中

In [35]:
#所以将new_row转换成dataframe
new_row_df = pd.DataFrame([['n1','n2','n3','n4']],columns=['A','B','C','D'])
print(new_row_df)

    A   B   C   D
0  n1  n2  n3  n4


In [36]:
print(pd.concat([df1,new_row_df]))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


### 忽略索引

In [38]:
row_concat_i = pd.concat([df1,df2,df3],ignore_index=True)
print(row_concat_i)

      A    B    C    D
0    a0   b0   c0   d0
1    a1   b1   c1   d1
2    a2   b2   c2   d2
3    a3   b3   c3   d3
4    a4   b4   c4   d4
5    a5   b5   c5   d5
6    a6   b6   c6   d6
7    a7   b7   c7   d7
8    a8   b8   c8   d8
9    a9   b9   c9   d9
10  a10  b10  c10  d10
11  a11  b11  c11  d11


### 2.添加列

In [39]:
col_concat = pd.concat([df1,df2,df3],axis=1)
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [43]:
#也可以直接向DataFraame添加一列
col_concat['new_col_list']=['n1','n2','n3','n4']
print(col_concat)
print("=========================================================")
print(pd.concat([df1,df2,df3],axis=1,ignore_index=True))

    A   B   C   D   A   B   C   D    A    B    C    D new_col_list
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8           n1
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9           n2
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10           n3
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11           n4
    0   1   2   3   4   5   6   7    8    9   10   11
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


### 3.不同索引下的连接操作

In [45]:
#连接不同列的行
df1.columns = ["A","B","C","D"]

df2.columns = ["E","F","G","H"]

df3.columns = ["A","E","C","H"]

row_concat = pd.concat([df1,df2,df3],sort=False)
print(row_concat)

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   c8  NaN   b8  NaN  NaN   d8
1   a9  NaN   c9  NaN   b9  NaN  NaN   d9
2  a10  NaN  c10  NaN  b10  NaN  NaN  d10
3  a11  NaN  c11  NaN  b11  NaN  NaN  d11


默认情况下concat函数有一个参数join，可用来保留要连接的对象共用的列，

默认值为outer（保留所有列）

inner（只保留数据集都有的列）

In [46]:
row_concat = pd.concat([df1,df2,df3],sort=False,join='inner')
print(row_concat)

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]
