# Pandas: Dataframe
Un DataFrame es una colección de datos bidimensional, en forma de tabla, con especificación de filas y columnas. Se puede considerar que un DataFrame es una colección de Series.

Ideas clave:
* Un Dataframe es una colección de datos con especificación de filas y columnas, donde el dato más relevante la etiqueta de columna (como en una hoja Excel, por ejemplo)
* En un DataFrame las filas y columnas se puden seleccionar de muchas formas. [columns_label], loc,[column_label] iloc[row, column]
* Muchos métodos en un DataFrame requieren la especificación de la dirección de la operacion en forma de axis
* Las operaciones en un DataFrame requieren especificar con cuidado las columnas involucradas

In [1]:
import pandas as pd
import numpy as np

Un DataFrame es el elemento básico de procesamiento de Pandas. Si se considerá que el uso de Pandas es el análisis de datos, estos tienden a tener forma de tabla con multiples columnas. Se puede generar un DataFrame a partir de una tupla/lista/arreglo:

In [11]:
df = pd.DataFrame([10, 20, 30, 40, 50])   
df


#dtf = pd.DataFrame(np.array(['g','r','d','l']))
#dtf


Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


Como se puede observar, aunque tenemos una lista de datos (como en una Serie), estos estan organizados bajo una columna. Como no se ha especificado la información de filas y columnas, estas se etiquetan con valores enteros desde 0. ¿Qué sucede si generamos un DataFrame a partir de un diccionario?

In [2]:
df = pd.DataFrame({1: 'ENE', 2: 'FEB', 3: 'MAR', 4: 'ABR', 5: 'MAY', 6: 'JUN'})
df

ValueError: If using all scalar values, you must pass an index

¿Por qué la operación anterior no funciona? El error indica que si se utilizan "valores escalares", se debe de pasar un índice. Aclaremos este resultando reemplazando los valores escales por una lista de un solo elemento:

In [5]:
df = pd.DataFrame({1: ['ENE'], 2: ['FEB'], 3: ['MAR'], 4: ['ABR'], 5: ['MAY'], 6: ['JUN']})  
df    # el dato representativo es la comuna

Unnamed: 0,1,2,3,4,5,6
0,ENE,FEB,MAR,ABR,MAY,JUN


Note que en este caso las llaves del diccionario sirven como índices de columna. A diferencia de una Serie, en un DataFrame el dato relevante es la columna. Creemos un DataFrame con una especificación más completa:

In [10]:
df = pd.DataFrame(data=["ENE", "FEB", "MAR", "ABR", "MAY", "JUN"],   #[data_fila_1, data_fila_2,......., data_fila_n]
                 index=[1, 2, 3, 4, 5, 6],   # índices de las filas
                 columns=["MESES"])          #índices de las columnas
df

Unnamed: 0,MESES
1,ENE
2,FEB
3,MAR
4,ABR
5,MAY
6,JUN


Se puede especificar en el atributo `data` información tabulada:

In [12]:
df = pd.DataFrame(data=[("ENE", 31), ("FEB", 28), ("MAR", 31), ("ABR", 30), ("MAY", 31), ("JUN", 30)], 
                 index=[1, 2, 3, 4, 5, 6], 
                 columns=["MESES", "DIAS"])
df

Unnamed: 0,MESES,DIAS
1,ENE,31
2,FEB,28
3,MAR,31
4,ABR,30
5,MAY,31
6,JUN,30


In [13]:
df = pd.DataFrame(data=zip(["ENE", "FEB", "MAR", "ABR", "MAY", "JUN"], [31, 28, 31, 30, 31, 30]),   # [dta_columna_1], [data_columna_2]
                 index=[1, 2, 3, 4, 5, 6], 
                 columns=["MESES", "DIAS"])
df

Unnamed: 0,MESES,DIAS
1,ENE,31
2,FEB,28
3,MAR,31
4,ABR,30
5,MAY,31
6,JUN,30


## DataFrames a detalle
Especifiquemos un DataFrame a partir de un arreglo de NumPy:

In [27]:
df = pd.DataFrame(data=np.random.randint(10, 100, (5, 4)),
                 index=['F1', 'F2', 'F3', 'F4', 'F5'], 
                 columns=['C1', 'C2', 'C2', 'C4'])
df

Unnamed: 0,C1,C2,C2.1,C4
F1,86,60,46,46
F2,11,99,76,74
F3,34,11,65,34
F4,16,67,13,50
F5,93,61,70,19


Se puede obtener información sobre el DataFrame con los atributos `size`, `shape` y `dtypes`:

In [34]:
print(f"Tamaño: {df.size}")
print(f"Forma: {df.shape}")
print(f"\nTipo de datos:\n{df.dtypes}")

Tamaño: 20
Forma: (5, 4)

Tipo de datos:
C1    int32
C2    int32
C2    int32
C4    int32
dtype: object


Otra forma de obtener información de un DataFrame es con el método `info()`:

In [35]:
df.info()   # Dtype objet: str   # para un dataframe las entradas son las filas

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, F1 to F5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   C1      5 non-null      int32
 1   C2      5 non-null      int32
 2   C2      5 non-null      int32
 3   C4      5 non-null      int32
dtypes: int32(4)
memory usage: 120.0+ bytes


Las propiedades de un DataFrame columns, index y values arrojan la información de columnas y indices (como objetos Index) y los valores en su forma original (en este caso, como un arreglo Numpy):

In [37]:
print(df.columns)  # devuelve un objeto index
print(df.index)    # devuelve un objeto index
print(df.values)   #devuelve un arrego bidimensional

Index(['C1', 'C2', 'C2', 'C4'], dtype='object')
Index(['F1', 'F2', 'F3', 'F4', 'F5'], dtype='object')
[[86 60 46 46]
 [11 99 76 74]
 [34 11 65 34]
 [16 67 13 50]
 [93 61 70 19]]


El método `describe()` retorna ls estadísticas del DataFrame:

In [38]:
print(df.describe())  # retorna datos estadísticos por columna

              C1         C2         C2         C4
count   5.000000   5.000000   5.000000   5.000000
mean   48.000000  59.600000  54.000000  44.600000
std    38.916577  31.508729  25.524498  20.391175
min    11.000000  11.000000  13.000000  19.000000
25%    16.000000  60.000000  46.000000  34.000000
50%    34.000000  61.000000  65.000000  46.000000
75%    86.000000  67.000000  70.000000  50.000000
max    93.000000  99.000000  76.000000  74.000000


## DataFrame como tabla de datos
Probemos un DataFrame que combine texto con numeros más parecido a un caso real:

In [8]:
df = pd.DataFrame(data=[
                          ['Lima', 'Lima', 9485405],
                          ['Piura', 'Piura', 1856809],
                          ['La Libertad', 'Trujillo', 1778080],
                          ['Arequipa', 'Arequipa', 1382730],
                          ['Cajamarca', 'Cajamarca', 1341012],
                          ['Junin', 'Huancayo', 1246038],
                          ['Cuzco', 'Cuzco', 1205527],
                      ], 
                   columns=['Departamento', 'Capital', 'Pob [2017]'])      # data = [[data_fila_1], [data_fila_2],......., [data_fila_n]]
df

Unnamed: 0,Departamento,Capital,Pob [2017]
0,Lima,Lima,9485405
1,Piura,Piura,1856809
2,La Libertad,Trujillo,1778080
3,Arequipa,Arequipa,1382730
4,Cajamarca,Cajamarca,1341012
5,Junin,Huancayo,1246038
6,Cuzco,Cuzco,1205527


El método `head(n)` retorna las primeras n filas de un DataFrame (n=5 por defecto):

In [9]:
df.head(3)

Unnamed: 0,Departamento,Capital,Pob [2017]
0,Lima,Lima,9485405
1,Piura,Piura,1856809
2,La Libertad,Trujillo,1778080


El método `tail(n)` retorna las últimas n filas de un DataFrame (n=5 por defecto):

In [10]:
df.tail(3)

Unnamed: 0,Departamento,Capital,Pob [2017]
4,Cajamarca,Cajamarca,1341012
5,Junin,Huancayo,1246038
6,Cuzco,Cuzco,1205527


Cuando se utilizan los corchetes `[]` para especificar un índice, este tiene que tener la información de la columna:

In [11]:
df['Departamento']   # El indice son las columnas / cada columna es una serie
# genera una excepcion si la columna no existe

0           Lima
1          Piura
2    La Libertad
3       Arequipa
4      Cajamarca
5          Junin
6          Cuzco
Name: Departamento, dtype: object

También se existe en método `get()` que retorna la información de una columna, que al igual que en los diccionarios, no genera una excepción si la columna no existe.

In [49]:
df.get('Departamento')    # No genera una excepción en caso la columna no exista

0           Lima
1          Piura
2    La Libertad
3       Arequipa
4      Cajamarca
5          Junin
6          Cuzco
Name: Departamento, dtype: object

Se puede especificar una lista de indices de columnas:

In [103]:
df[['Departamento', 'Pob [2017]']]

Unnamed: 0,Departamento,Pob [2017]
3,Arequipa,1382730
4,Cajamarca,1341012
6,Cuzco,1205527
5,Junin,1246038
2,La Libertad,1778080
0,Lima,9485405
1,Piura,1856809


Tambien tenemos el método `loc[]` que permite utilizar las etiquetas de filas y columnas, ya que tenemos una estructura de dos dimensiones:

In [56]:
df.loc[0]      # loc[row, columns] con etiquetas

Departamento       Lima
Capital            Lima
Pob [2017]      9485405
Name: 0, dtype: object

In [69]:
df.loc[1,'Capital']

'Piura'

Así también, se tiene `iloc[]` para especificar las posiciones de los elementos, de forma semejante como sucede con un arreglo de Numpy:

In [13]:
df.iloc[:,2]      # iloc[row, columns] con indices
# [:,n]  todas las filas de la columna n

0    9485405
1    1856809
2    1778080
3    1382730
4    1341012
5    1246038
6    1205527
Name: Pob [2017], dtype: int64

In [15]:
df.iloc[0,1:]
#df.iloc[0,1:]['Capital']

Capital          Lima
Pob [2017]    9485405
Name: 0, dtype: object

Se puede utilizar indexación booleana, pero por cada columna (como sucedía con una Serie, ya que se puede entender que cada columna de un DataFrame es una Serie). Por ejemplo, considere la siguiente instrucción:

In [16]:
df[df['Pob [2017]'] < 1300000]       # Esto no se parece a "SELECT * FROM table WHERE Pobl [2017] < 1300000"???

Unnamed: 0,Departamento,Capital,Pob [2017]
5,Junin,Huancayo,1246038
6,Cuzco,Cuzco,1205527


O la sigiuente expresión donde se especifica la columna a extraer según un criterio en otra columna:

In [17]:
df["Departamento"][df['Pob [2017]'] < 1300000]     # Esto no se parece a "SELECT Departamento FROM tabla WHERE Pobl [2017] < 1300000"???
# "de la columna Departamento se seleciona a aquelos que tegan una poblacion menor a la indicada"

5    Junin
6    Cuzco
Name: Departamento, dtype: object

Así también, las operaciones de ordenamientos van reordenar los datos con los indices por fila, pero se debe especificar cual será la columna por la que se ordenará todo el DataFrame (con la propiedad `by`):

In [18]:
df.sort_values(by='Departamento')

Unnamed: 0,Departamento,Capital,Pob [2017]
3,Arequipa,Arequipa,1382730
4,Cajamarca,Cajamarca,1341012
6,Cuzco,Cuzco,1205527
5,Junin,Huancayo,1246038
2,La Libertad,Trujillo,1778080
0,Lima,Lima,9485405
1,Piura,Piura,1856809


In [98]:
df

Unnamed: 0,Departamento,Capital,Pob [2017]
0,Lima,Lima,9485405
1,Piura,Piura,1856809
2,La Libertad,Trujillo,1778080
3,Arequipa,Arequipa,1382730
4,Cajamarca,Cajamarca,1341012
5,Junin,Huancayo,1246038
6,Cuzco,Cuzco,1205527


Al igual que una Serie, los métodos de un DataFrame retornan DataFrames nuevos, por lo que será necesario utilizar `inplace=True` para fijar los cambios:

In [111]:
df.sort_values(by='Departamento', inplace=True)
df

Unnamed: 0,Departamento,Capital,Pob [2017]
3,Arequipa,Arequipa,1382730
4,Cajamarca,Cajamarca,1341012
6,Cuzco,Cuzco,1205527
5,Junin,Huancayo,1246038
2,La Libertad,Trujillo,1778080
0,Lima,Lima,9485405
1,Piura,Piura,1856809


## Algunos métodos de un DataFrame
Al igual que en las Series, hay muchos métodos en un DataFrame que retornan resultados de la aplicación de operaciones sobre valores numéricos, por ejemplo, pero al ser un DataFrame una estructura tabular es necesario (como sucede con los Arrays de NumPy) especificar la dirección de las operaciones con parametro `axis`:

In [19]:
df = pd.DataFrame(data=np.random.randint(10, 99, (5, 10)))
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,97,22,42,98,13,34,38,29,63,20
1,81,61,82,34,85,52,29,52,53,47
2,92,92,85,21,84,84,13,90,46,15
3,98,19,18,87,36,73,39,39,50,96
4,69,19,33,71,53,77,36,58,74,71


In [20]:
print(f"Suma por columna:\n{df.sum()}")   # axis=0 por defecto
print(f"Suma por fila:\n{df.sum(axis=1)}")

Suma por columna:
0    437
1    213
2    260
3    311
4    271
5    320
6    155
7    268
8    286
9    249
dtype: int64
Suma por fila:
0    456
1    576
2    622
3    555
4    561
dtype: int64


Otro ejemplo: si se utiliza `pop` sobre un DataFrame, extraerá una columna completa, por lo que habrá que especificar la etiqueta (o en este caso en indice) de la columna:

In [21]:
val = df.pop(0)
print(val)
df

0    97
1    81
2    92
3    98
4    69
Name: 0, dtype: int32


Unnamed: 0,1,2,3,4,5,6,7,8,9
0,22,42,98,13,34,38,29,63,20
1,61,82,34,85,52,29,52,53,47
2,92,85,21,84,84,13,90,46,15
3,19,18,87,36,73,39,39,50,96
4,19,33,71,53,77,36,58,74,71


Y si se utiliza `drop()` se utiliza una etiqueta para una fila o una columna, por lo que habrá que especificar con `axis` la dirección del método (axis=1 para las columnas) o utilizar la propiedad columns o rows para especificar a que hace referencia la etiqueta.

In [320]:
df.drop(columns=9)  # si se coloca index=3, se va la fila 3

Unnamed: 0,1,2,3,4,5,6,7,8
0,37,66,10,19,18,94,22,84
1,32,17,89,12,83,10,63,92
2,75,61,50,33,95,66,65,24
3,79,60,44,37,96,15,58,33
4,17,85,94,61,34,20,12,87


En un DataFrame tambien se pueden agregar elementos, que en este caso será agregar filas o columnas:

In [321]:
# Agregamos columnas con []
df[9] = np.random.randint(10, 100, 5)
df

Unnamed: 0,1,2,3,4,5,6,7,8,9
0,37,66,10,19,18,94,22,84,26
1,32,17,89,12,83,10,63,92,27
2,75,61,50,33,95,66,65,24,14
3,79,60,44,37,96,15,58,33,38
4,17,85,94,61,34,20,12,87,95


In [22]:
# Agregamos filas con loc[]
df.loc[5] = np.random.randint(10, 100, 9)
df

Unnamed: 0,1,2,3,4,5,6,7,8,9
0,22,42,98,13,34,38,29,63,20
1,61,82,34,85,52,29,52,53,47
2,92,85,21,84,84,13,90,46,15
3,19,18,87,36,73,39,39,50,96
4,19,33,71,53,77,36,58,74,71
5,26,96,34,73,52,86,71,41,73


Podemos combinar todas estas operaciones para agregar columnas a una DataFrame con resultados del DataFrame:

In [28]:
df['Suma'] = df.iloc[:,:9].sum(axis=1)   # Que pasa si elimina .loc[:,:-1]
df

Unnamed: 0,1,2,3,4,5,6,7,8,9,Suma,Promedio
0,22,42,98,13,34,38,29,63,20,359,39.888889
1,61,82,34,85,52,29,52,53,47,495,55.0
2,92,85,21,84,84,13,90,46,15,530,58.888889
3,19,18,87,36,73,39,39,50,96,457,50.777778
4,19,33,71,53,77,36,58,74,71,492,54.666667
5,26,96,34,73,52,86,71,41,73,552,61.333333


In [26]:
df['Suma'] = df.sum(axis=1)   # Que pasa si elimina .loc[:,:-1]
df                             # cada vez que se ejecute el script los datos en la columna suma
                                # aumentará, ya que se suma los datos de esta columna

Unnamed: 0,1,2,3,4,5,6,7,8,9,Suma
0,22,42,98,13,34,38,29,63,20,718
1,61,82,34,85,52,29,52,53,47,990
2,92,85,21,84,84,13,90,46,15,1060
3,19,18,87,36,73,39,39,50,96,914
4,19,33,71,53,77,36,58,74,71,984
5,26,96,34,73,52,86,71,41,73,1104


In [29]:
df['Promedio'] = df.iloc[:,:9].mean(axis=1)
df                        # se debe tener encuenta las columas que se incluyen el cálculo

Unnamed: 0,1,2,3,4,5,6,7,8,9,Suma,Promedio
0,22,42,98,13,34,38,29,63,20,359,39.888889
1,61,82,34,85,52,29,52,53,47,495,55.0
2,92,85,21,84,84,13,90,46,15,530,58.888889
3,19,18,87,36,73,39,39,50,96,457,50.777778
4,19,33,71,53,77,36,58,74,71,492,54.666667
5,26,96,34,73,52,86,71,41,73,552,61.333333


Podemos hacer operaciones de búsqueda con `where`, lo que retornará varios NaN en el DataFrame

In [30]:
df.where(df['Promedio'] > 60)

Unnamed: 0,1,2,3,4,5,6,7,8,9,Suma,Promedio
0,,,,,,,,,,,
1,,,,,,,,,,,
2,,,,,,,,,,,
3,,,,,,,,,,,
4,,,,,,,,,,,
5,26.0,96.0,34.0,73.0,52.0,86.0,71.0,41.0,73.0,552.0,61.333333


## Gestión de los NaN
Al igual que en una Serie, en un DataFrame tambien habra que gestionar que hacer con los valores NaN. Si se requiere reemplazarlos, se tendran que procesar a nivel de columnas:

In [31]:
df = pd.DataFrame([[10, 13, 13, 20, 32], [12, np.nan, np.nan, 23, np.nan], [12, np.nan, 21, ]])     # Tambien de puede utiliza el tipo pd.NA
df

Unnamed: 0,0,1,2,3,4
0,10,13.0,13.0,20.0,32.0
1,12,,,23.0,
2,12,,21.0,,


Eliminamos las filas que contengan NaN

In [274]:
df.dropna()

Unnamed: 0,0,1,2,3,4
0,10,13.0,13.0,20.0,32.0


Eliminamos las columnas que contengas NaN

In [32]:
df.dropna(axis=1)

Unnamed: 0,0
0,10
1,12
2,12


Reemplazamos todos los NaN en un DataFrame por otro valor

In [33]:
df.fillna('-')

Unnamed: 0,0,1,2,3,4
0,10,13,13,20,32
1,12,-,-,23,-
2,12,-,21,-,-


Eliminamos las columnas que tengan mas NaN en cantidad que un valor de umbral

In [34]:
df.dropna(thresh=2, axis=1)    # Elimina columnas 1 y 4 (Hay más o igual a 2 NaN: valor de umbral)

Unnamed: 0,0,2,3
0,10,13.0,20.0
1,12,,23.0
2,12,21.0,


Otro caso especial es tener filas con información duplicada.

In [35]:
df = pd.DataFrame(data=[['Ana', 1.70, 68], ['Jose', 1.67, 80], ['Pedro', 1.72, 82], ['Ana', 1.70, 68]], 
                  columns=['Nombre', 'Peso', 'Altura'])
df

Unnamed: 0,Nombre,Peso,Altura
0,Ana,1.7,68
1,Jose,1.67,80
2,Pedro,1.72,82
3,Ana,1.7,68


In [36]:
df.duplicated()

0    False
1    False
2    False
3     True
dtype: bool

In [37]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,Nombre,Peso,Altura
0,Ana,1.7,68
1,Jose,1.67,80
2,Pedro,1.72,82


## Reetiquetado de filas y columnas
Otra operación común en Pandas es cambiar las etiquetas de las filas o columnas. Esto se puede hacer redefiniendo las propedades `columns` e `index` de un DataFrame:

In [38]:
df = pd.DataFrame(data=np.random.randint(10, 99, (5, 10)))
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,43,48,57,42,15,90,19,39,85,66
1,73,76,93,28,39,18,34,14,59,88
2,70,76,67,67,13,24,85,50,46,22
3,61,74,49,10,17,39,90,13,40,11
4,44,66,18,19,19,17,97,16,17,97


In [39]:
df.columns = ['C1','C2','C3','C4','C5','C6','C7','C8','C9','C10']
df

Unnamed: 0,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10
0,43,48,57,42,15,90,19,39,85,66
1,73,76,93,28,39,18,34,14,59,88
2,70,76,67,67,13,24,85,50,46,22
3,61,74,49,10,17,39,90,13,40,11
4,44,66,18,19,19,17,97,16,17,97


In [40]:
df.index = ['F1','F2','F3','F4','F5']
df

Unnamed: 0,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10
F1,43,48,57,42,15,90,19,39,85,66
F2,73,76,93,28,39,18,34,14,59,88
F3,70,76,67,67,13,24,85,50,46,22
F4,61,74,49,10,17,39,90,13,40,11
F5,44,66,18,19,19,17,97,16,17,97


Otra forma de realizar lo mismo es con el método `rename` donde se especifica un mapa con la etiqueta actual y la nueva etiqueta en un diccionario, y se puede especificar las propiedades `columns` e `index`:

In [41]:
df = pd.DataFrame(data=np.random.randint(10, 99, (5, 10)))
df.rename(columns={0:'C1', 1:'C2', 2:'C3', 3:'C4', 4:'C6', 5:'C6', 6:'C7', 7:'C8', 8:'C9', 9:'C10'}, 
         index={0:'F1', 1:'F2', 2:'F3', 3:'F4', 4:'F5'})      # inplace=True para fijar los cambios

Unnamed: 0,C1,C2,C3,C4,C6,C6.1,C7,C8,C9,C10
F1,53,26,45,34,33,10,83,85,86,18
F2,78,80,64,79,74,87,72,88,42,68
F3,71,35,89,68,43,12,44,56,58,45
F4,41,49,50,40,81,19,82,38,43,83
F5,92,85,16,56,91,32,30,62,39,29


El método rename también puede utilizar una función en lugar de un diccionario. Por ejemplo, una funcion `lambda` que tome las etiquetas de fila y columnas y las inserte en un `str`:

In [42]:
df.rename(columns=lambda x: 'C' + str(x+1), 
         index = lambda x: 'F' + str(x+1))

Unnamed: 0,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10
F1,53,26,45,34,33,10,83,85,86,18
F2,78,80,64,79,74,87,72,88,42,68
F3,71,35,89,68,43,12,44,56,58,45
F4,41,49,50,40,81,19,82,38,43,83
F5,92,85,16,56,91,32,30,62,39,29


Otra caso usual consiste en reemplazar alguna de las columnas como indice de filas. Por ejemplo, en el siguiente DataFrame la columna ID se quiere considerarla como index de columnas:

In [43]:
df = pd.DataFrame([[1, 18, 13, 15], [2, 9, 12, 18], [3, 14, 17, 11], [4, 9, 10, 12]], 
                 columns=['ID', 'NOTA1', 'NOTA2', 'NOTA3'])
df

Unnamed: 0,ID,NOTA1,NOTA2,NOTA3
0,1,18,13,15
1,2,9,12,18
2,3,14,17,11
3,4,9,10,12


In [45]:
df.index = df['ID']         # ID ya no es una columna solo es el nombre de la lista de los índices
df.drop(columns='ID')    # Este paso es opcional

Unnamed: 0_level_0,NOTA1,NOTA2,NOTA3
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,18,13,15
2,9,12,18
3,14,17,11
4,9,10,12
