# 04 切配菜品-数值操作

In [1]:
import pandas as pd
import numpy as np
# 一个cell输出多行语句
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 一、数值替换
数值替换：将数值A替换成数值B，用在**异常值替换处理**、**缺失值填充处理**中
* 一对一替换
* 多对一替换
* 多对多替换

### 1.1 一对一替换
将某区域中的一个值替换成另一个值

**replace(A, B)**表示将A替换成B

In [2]:
# 将240岁年龄替换成33岁
df = pd.read_excel('./data/select_condition.xlsx')
df
df['年龄'] = df['年龄'].replace(204, 33)
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,204,2018-08-11
4,A5,赵恒,104,204,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12


In [3]:
# 下面相当于fillna，np.NaN是对缺失值的一种表示方法
df.replace(np.NaN, 0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12


### 1.2 多对一替换
将多个值替换成某一个值

Excel实现：对某一列使用if函数

**replace([A, B], C)**将A、B替换成C

In [4]:
df = pd.read_excel('./data/more_one_replace.xlsx')
df
df.replace([240, 260, 280], 33)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,240,2018-08-11
4,A5,赵恒,104,260,2018-08-12
5,A6,王丹,105,280,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12
5,A6,王丹,105,33,2018-08-12


### 1.3 多对多替换
某个区域中多个一对一替换，比如：将年龄240替换成平均值减一，260替换成平均值，280替换成平均值加一

Excel实现：if嵌套实现

**replace({'A':'a', 'B':'b'})**表示a替换A，用b替换B

In [5]:
df.replace({240:32, 260:33, 280:34})

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,32,2018-08-11
4,A5,赵恒,104,33,2018-08-12
5,A6,王丹,105,34,2018-08-12


## 二、数值排序
按具体数值大小进行排序，有**升序**和**降序**

### 2.1 按照某一列数值进行排序

In [6]:
# sort_values(by=['col'], ascending=False)
# by：排序的列名
# ascending=False，降序；默认值为True表示升序
df = pd.read_excel('./data/sort_one.xlsx')
df
df.sort_values(by=['销售ID'])
df.sort_values(by=['销售ID'], ascending=False)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1
1,A2,李谷,102,45,2018-08-09,2
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
5,A6,王丹,105,280,2018-08-12,4
4,A5,赵恒,104,260,2018-08-12,3
1,A2,李谷,102,45,2018-08-09,2
3,A4,赵恒,104,240,2018-08-11,2
0,A1,张 通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1


### 2.2 按照有缺失值的列进行排序
当待排序的列中有缺失值时，可以通过设置**na_position**参数对缺失值的显示位置进行设置，默认参数值为last，可以不写，表示缺失值在最后

In [7]:
df = pd.read_excel('./data/sort_na.xlsx')
df
df.sort_values(by=['销售ID'])
df.sort_values(by=['销售ID'], na_position='first')

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1.0
1,A2,李谷,102,45,2018-08-09,2.0
2,A3,孙凤,103,23,2018-08-10,1.0
3,A4,赵恒,104,240,2018-08-11,
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1.0
2,A3,孙凤,103,23,2018-08-10,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0
3,A4,赵恒,104,240,2018-08-11,


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
3,A4,赵恒,104,240,2018-08-11,
0,A1,张 通,101,31,2018-08-08,1.0
2,A3,孙凤,103,23,2018-08-10,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0


### 2.3 按照多列数值进行排序
df.sort_values(by=['col1', 'col2'], ascending=[True, False])

In [8]:
df.sort_values(by=['销售ID', '成交时间'], ascending=[True, False])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1.0
0,A1,张 通,101,31,2018-08-08,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0
3,A4,赵恒,104,240,2018-08-11,


## 三、数值排名
排名和排序是相对应的，排名会**新增一列**，排名从1开始

Excel实现：RANK.AVG()和RANK.EQ()两个函数，没有重复值时，两个函数的效果完全一样。区别：处理重复值方式不同。

**RANK.AVG(number, ref, order)**

当排名的数值有重复值时，返回的重复值的平均排名

* number：排名的数值
* ref：一整列数值的范围
* order：降序或升序

<img src='./image/rank_avg.jpg' width='50%'>

**RANK.EQ(number, ref, order)**

当排名有重复时，RANK.EQ返回重复值的最佳排名

<img src='./image/rank_eq.jpg' width='50%'>

Python实现：**rank()方法**

* ascending：True升序排列；False降序排列；默认为True
* method：指明待排列值有重复值时的处理情况

<img src='./image/rank_method.jpg' width='80%'>

In [9]:
df = pd.read_excel('./data/sort_one.xlsx')
df
df['销售ID'].rank(method='average')
df['销售ID'].rank(method='first')
df['销售ID'].rank(method='min')
df['销售ID'].rank(method='max')

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


0    1.5
1    3.5
2    1.5
3    3.5
4    5.0
5    6.0
Name: 销售ID, dtype: float64

0    1.0
1    3.0
2    2.0
3    4.0
4    5.0
5    6.0
Name: 销售ID, dtype: float64

0    1.0
1    3.0
2    1.0
3    3.0
4    5.0
5    6.0
Name: 销售ID, dtype: float64

0    2.0
1    4.0
2    2.0
3    4.0
4    5.0
5    6.0
Name: 销售ID, dtype: float64

## 四、数值删除
### 4.1 删除列
**drop()方法**

* axis=1，表示删除列
* axis=0，表示删除行

In [10]:
df.drop(['销售ID', '成交时间'], axis=1)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张 通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,240
4,A5,赵恒,104,260
5,A6,王丹,105,280


In [11]:
# 直接传入待删除列的位置，也需要axis参数
df.drop(df.columns[[4, 5]], axis=1)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张 通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,240
4,A5,赵恒,104,260
5,A6,王丹,105,280


In [12]:
# 列名以列表的形式传递给columns参数，此时不需要axis参数了
df.drop(columns=['销售ID', '成交时间'])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张 通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,240
4,A5,赵恒,104,260
5,A6,王丹,105,280


### 4.2 删除行
**drop()**函数指明axis=0

In [13]:
df.drop([0, 1], axis=0)
# index获取行号，需要传axis=0
df.drop(df.index[[0, 1]], axis=0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


In [14]:
# 将行名传递给index参数，可以不用传递axis
df.drop(index = [0, 1])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


### 4.3 删除特定行
删除满足某个条件的行，《淘米洗菜-数据预处理》中异常值处理算是删除特定行

Excel实现：先筛选，后删除

Python实现：不直接删除满足条件的值，而是把不满足条件的值筛选处理作为新的数据源，即将要删除的行过滤掉

In [15]:
# 删除年龄大于等于40的行，即筛选小于40的行
df[df['年龄'] < 40]

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1


## 五、数值计数
计算某个值在一系列数值中出现的次数

Excel实现：**COUNTIF函数**：计算某个区域中满足给定条件的单元格数目

**COUNTIF(range, criteria)**

* range：一系列值的范围
* criteria：表示某个值或某一条件

如下图：销售ID在F2在F2:F6中出现两次，以此类推

<img src='./image/countif.jpg'/>

Python实现：**value_counts()**方法

In [16]:
df
df['销售ID'].value_counts()
# 结果按计数值降序排列

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


2    2
1    2
4    1
3    1
Name: 销售ID, dtype: int64

In [17]:
# 查看不同值出现的占比
df['销售ID'].value_counts(normalize=True)
# 结果按计数值降序排列

2    0.333333
1    0.333333
4    0.166667
3    0.166667
Name: 销售ID, dtype: float64

In [18]:
# 不按计数值降序排列，按计数对象排序，设置sort=False
df['销售ID'].value_counts(normalize=True, sort=False)

1    0.333333
2    0.333333
3    0.166667
4    0.166667
Name: 销售ID, dtype: float64

## 六、唯一值获取
把一系列的值删除重复项以后的结果

Excel实现：将某一列复制粘贴出来，删除重复项，剩下就是唯一值了

Python实现：（1）删除重复值，和Excel一致（2）**unique()**方法

In [19]:
df['销售ID'].unique()

array([1, 2, 3, 4])

## 七、数值查找
**isin()**方法

In [20]:
# 某列查询
df['年龄'].isin([31, 23])
# 全表查询
df.isin(['A2', 31])

0     True
1    False
2     True
3    False
4    False
5    False
Name: 年龄, dtype: bool

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,False,False,False,True,False,False
1,True,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False


## 八、区间切分
将一系列数值分成若干份，比如：现在有10个人，你要根据这10个人的年龄将他们分成三组，这个切分过程就称为**区间切分**。

Excel实现：if函数

=IF(D2<4, "<4", IF(D2<7, "4-6", ">=7"))

Python实现：cut()方法，bins参数指明切分区间。

In [21]:
pd.cut(df['年龄'], bins=[0, 3, 50, 280])
pd.cut(df['年龄'], 3)

0      (3, 50]
1      (3, 50]
2      (3, 50]
3    (50, 280]
4    (50, 280]
5    (50, 280]
Name: 年龄, dtype: category
Categories (3, interval[int64]): [(0, 3] < (3, 50] < (50, 280]]

0    (22.743, 108.667]
1    (22.743, 108.667]
2    (22.743, 108.667]
3     (194.333, 280.0]
4     (194.333, 280.0]
5     (194.333, 280.0]
Name: 年龄, dtype: category
Categories (3, interval[float64]): [(22.743, 108.667] < (108.667, 194.333] < (194.333, 280.0]]

In [22]:
# qcut
pd.qcut(df['年龄'], 3)
# 在数据分布比较均匀的情况下，cut()和qcut()方法得到的区间基本一致。
# 当数据分布不均匀时，即方差比较大时，两者得到的区间的偏差就会比较大。

0     (22.999, 40.333]
1    (40.333, 246.667]
2     (22.999, 40.333]
3    (40.333, 246.667]
4     (246.667, 280.0]
5     (246.667, 280.0]
Name: 年龄, dtype: category
Categories (3, interval[float64]): [(22.999, 40.333] < (40.333, 246.667] < (246.667, 280.0]]

## 九、插入新的行或列
在特定的位置插入行或列

Python实现

* 将插入的行当作一个新的表，将两个表在纵轴方向上进行拼接
* insert(插入位置，插入后新的列名，插入的数据)方法

In [23]:
# df = df.drop(['商品类别'], axis=1)
df.insert(2, '商品类别', ['cat01', 'cat02', 'cat03', 'cat04', 'cat05', 'cat06'])
df

Unnamed: 0,订单编号,客户姓名,商品类别,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,cat01,101,31,2018-08-08,1
1,A2,李谷,cat02,102,45,2018-08-09,2
2,A3,孙凤,cat03,103,23,2018-08-10,1
3,A4,赵恒,cat04,104,240,2018-08-11,2
4,A5,赵恒,cat05,104,260,2018-08-12,3
5,A6,王丹,cat06,105,280,2018-08-12,4


In [24]:
df['商品类别'] = ['cat01', 'cat02', 'cat03', 'cat04', 'cat05', 'cat07']
df

Unnamed: 0,订单编号,客户姓名,商品类别,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,cat01,101,31,2018-08-08,1
1,A2,李谷,cat02,102,45,2018-08-09,2
2,A3,孙凤,cat03,103,23,2018-08-10,1
3,A4,赵恒,cat04,104,240,2018-08-11,2
4,A5,赵恒,cat05,104,260,2018-08-12,3
5,A6,王丹,cat07,105,280,2018-08-12,4


## 十、行列互换
行列互换（转置）

<img src="./image/rcT.jpg" width="60%" />

In [25]:
df.T
df.T.T

Unnamed: 0,0,1,2,3,4,5
订单编号,A1,A2,A3,A4,A5,A6
客户姓名,张 通,李谷,孙凤,赵恒,赵恒,王丹
商品类别,cat01,cat02,cat03,cat04,cat05,cat07
唯一识别码,101,102,103,104,104,105
年龄,31,45,23,240,260,280
成交时间,2018-08-08 00:00:00,2018-08-09 00:00:00,2018-08-10 00:00:00,2018-08-11 00:00:00,2018-08-12 00:00:00,2018-08-12 00:00:00
销售ID,1,2,1,2,3,4


Unnamed: 0,订单编号,客户姓名,商品类别,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,cat01,101,31,2018-08-08,1
1,A2,李谷,cat02,102,45,2018-08-09,2
2,A3,孙凤,cat03,103,23,2018-08-10,1
3,A4,赵恒,cat04,104,240,2018-08-11,2
4,A5,赵恒,cat05,104,260,2018-08-12,3
5,A6,王丹,cat07,105,280,2018-08-12,4


## 十一、索引重塑
索引重塑就是要将原来的索引进行重新构造

<img src="./image/dataframe.jpg" width="60%" />

树形结构

<img src="./image/tree.jpg" height="60%" />

树形结构就是在维持表格型索引不变的情况下，把列索引也变成行索引，给表格建立层次化索引

将表格型数据转换到树形数据的过程叫重塑。

**stack()**方法，对应的方法**unstack()**

In [26]:
df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['C1', 'C2', 'C3'], index=['S1', 'S2'])
df2
df2.stack()
df2.stack().unstack()

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


S1  C1    1
    C2    2
    C3    3
S2  C1    4
    C2    5
    C3    6
dtype: int64

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


## 十二、长宽表转换
长宽表转换就是将比较长的表（很多行）的表转换为比较宽（很多列）的表，或者比较宽的表转化为比较长的表。

<img src="./image/width_table.jpg" height="80%" />

### 12.1 宽表转换为长表

In [27]:
df = pd.read_excel('./data/stack.xlsx')
df
df.set_index(['Company', 'Name'])

Unnamed: 0,Company,Name,Sale2013,Sale2014,Sale2015,Sale2016
0,Apple,苹果,5000,5050,5050,5050
1,Google,谷歌,3500,3800,3800,3800
2,Facebook,脸书,2300,2900,2900,2900


Unnamed: 0_level_0,Unnamed: 1_level_0,Sale2013,Sale2014,Sale2015,Sale2016
Company,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Apple,苹果,5000,5050,5050,5050
Google,谷歌,3500,3800,3800,3800
Facebook,脸书,2300,2900,2900,2900


In [28]:
# 1. stack方法实现
df.set_index(['Company', 'Name']).stack()

Company   Name          
Apple     苹果    Sale2013    5000
                Sale2014    5050
                Sale2015    5050
                Sale2016    5050
Google    谷歌    Sale2013    3500
                Sale2014    3800
                Sale2015    3800
                Sale2016    3800
Facebook  脸书    Sale2013    2300
                Sale2014    2900
                Sale2015    2900
                Sale2016    2900
dtype: int64

In [29]:
df.set_index(['Company', 'Name']).stack().reset_index()
# reset_index：重置索引，将索引列当作一个columns进行返回，变成常规的两列

Unnamed: 0,Company,Name,level_2,0
0,Apple,苹果,Sale2013,5000
1,Apple,苹果,Sale2014,5050
2,Apple,苹果,Sale2015,5050
3,Apple,苹果,Sale2016,5050
4,Google,谷歌,Sale2013,3500
5,Google,谷歌,Sale2014,3800
6,Google,谷歌,Sale2015,3800
7,Google,谷歌,Sale2016,3800
8,Facebook,脸书,Sale2013,2300
9,Facebook,脸书,Sale2014,2900


In [30]:
# 2. melt方法实现
df = df.melt(id_vars=['Company', 'Name'], var_name='Year', value_name='Sale')
df
# id_vars参数：指明宽表转换为长表时保持不变的列
# var_name参数：原来的列索引转换成“行索引”以后对应的列名
# value_name参数：新索引对应值的列名

Unnamed: 0,Company,Name,Year,Sale
0,Apple,苹果,Sale2013,5000
1,Google,谷歌,Sale2013,3500
2,Facebook,脸书,Sale2013,2300
3,Apple,苹果,Sale2014,5050
4,Google,谷歌,Sale2014,3800
5,Facebook,脸书,Sale2014,2900
6,Apple,苹果,Sale2015,5050
7,Google,谷歌,Sale2015,3800
8,Facebook,脸书,Sale2015,2900
9,Apple,苹果,Sale2016,5050


### 12.2 长表转换为宽表
宽表转换为长表的逆过程，常用的方法是**数据透视表**。

In [31]:
# index行索引，columns列索引，values值
df.pivot_table(index = ['Company', 'Name'], columns='Year', values='Sale')

Unnamed: 0_level_0,Year,Sale2013,Sale2014,Sale2015,Sale2016
Company,Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Apple,苹果,5000,5050,5050,5050
Facebook,脸书,2300,2900,2900,2900
Google,谷歌,3500,3800,3800,3800


## 十三、apply()与applymap()函数
Python中的map函数：对一个序列中的所有元素执行相同的函数操作。

DataFrame中和map相似的函数：（1）**apply()函数** （2）**applaymap()函数**

都需要和匿名函数**lambda**结合使用

**apply()**：对DataFrame中的某一column或row的元素执行相同的操作

**applymap()**：对DataFrame中的每一个元素执行相同的函数操作

In [32]:
df = pd.DataFrame([[2, 3, 4], [5, 6, 7], [8, 9, 10]], columns=['C1', 'C2', 'C3'])
df = pd.DataFrame(np.arange(9).reshape(3, 3), columns=['C1', 'C2', 'C3'])
df
df.applymap(lambda x: x+1)

Unnamed: 0,C1,C2,C3
0,0,1,2
1,3,4,5
2,6,7,8


Unnamed: 0,C1,C2,C3
0,1,2,3
1,4,5,6
2,7,8,9
