# Pandas: Dataframe
Un DataFrame es una colección de datos bidimensional, en forma de tabla, con especificación de filas y columnas. Se puede considerar que un DataFrame es una colección de Series.

Ideas clave:
* Un Dataframe es una colección de datos con especificación de filas y columnas, donde el dato más relevante la etiqueta de columna (como en una hoja Excel, por ejemplo)
* En un DataFrame las filas y columnas se puden seleccionar de muchas formas. [columns_label], loc,[column_label] iloc[row, column]
* Muchos métodos en un DataFrame requieren la especificación de la dirección de la operacion en forma de axis
* Las operaciones en un DataFrame requieren especificar con cuidado las columnas involucradas

In [1]:
import pandas as pd
import numpy as np

Un DataFrame es el elemento básico de procesamiento de Pandas. Si se considerá que el uso de Pandas es el análisis de datos, estos tienden a tener forma de tabla con multiples columnas. Se puede generar un DataFrame a partir de una tupla/lista/arreglo:

In [2]:
df = pd.DataFrame([10, 20, 30, 40, 50])
df

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


Como se puede observar, aunque tenemos una lista de datos (como en una Serie), estos estan organizados bajo una columna. Como no se ha especificado la información de filas y columnas, estas se etiquetan con valores enteros desde 0. ¿Cué sucede si generamos un DataFrame a partir de un diccionario?

In [3]:
df = pd.DataFrame({1: 'ENE', 2: 'FEB', 3: 'MAR', 4: 'ABR', 5: 'MAY', 6: 'JUN'})
df

ValueError: If using all scalar values, you must pass an index

¿Por qué la operación anterior no funciona? El error indica que si se utilizan "valores escalares", se debe de pasar un índice. Aclaremos este resultando reemplazando los valores escales por una lista de un solo elemento:

In [4]:
df = pd.DataFrame({1: ['ENE'], 2: ['FEB'], 3: ['MAR'], 4: ['ABR'], 5: ['MAY'], 6: ['JUN']})
df

Unnamed: 0,1,2,3,4,5,6
0,ENE,FEB,MAR,ABR,MAY,JUN


Note que en este caso las llaves del diccionario sirven como índices de columna. A diferencia de una Serie, en un DataFrame es dato relevante es la columna. Creemos un DataFrame con una especificación más completa:

In [5]:
df = pd.DataFrame(data=["ENE", "FEB", "MAR", "ABR", "MAY", "JUN"], 
                  index=[1, 2, 3, 4, 5, 6], 
                  columns=["MESES"])
df

Unnamed: 0,MESES
1,ENE
2,FEB
3,MAR
4,ABR
5,MAY
6,JUN


Se puede especificar en el atributo `data` información tabulada:

In [6]:
df = pd.DataFrame(data=[("ENE", 31), ("FEB", 28), ("MAR", 31), ("ABR", 30), ("MAY", 31), ("JUN", 30)], 
                 index=[1, 2, 3, 4, 5, 6], 
                 columns=["MESES", "DIAS"])
df

Unnamed: 0,MESES,DIAS
1,ENE,31
2,FEB,28
3,MAR,31
4,ABR,30
5,MAY,31
6,JUN,30


In [7]:
df = pd.DataFrame(data=zip(["ENE", "FEB", "MAR", "ABR", "MAY", "JUN"], [31, 28, 31, 30, 31, 30]),
                 index=[1, 2, 3, 4, 5, 6], 
                 columns=["MESES", "DIAS"])
df

Unnamed: 0,MESES,DIAS
1,ENE,31
2,FEB,28
3,MAR,31
4,ABR,30
5,MAY,31
6,JUN,30


## DataFrames a detalle
Especifiquemos un DataFrame a partir de un arreglo de NumPy:

In [8]:
df = pd.DataFrame(data=np.random.randint(10, 100, (5, 4)),
                  index=['F1', 'F2', 'F3', 'F4', 'F5'], 
                  columns=['C1', 'C2', 'C2', 'C4'])
df

Unnamed: 0,C1,C2,C2.1,C4
F1,16,97,54,45
F2,24,38,39,11
F3,49,63,68,53
F4,80,20,63,20
F5,70,31,69,88


Se puede obtener información sobre el DataFrame con los atributos `size`, `shape` y `dtpes`:

In [9]:
print(f"Tamaño: {df.size}")
print(f"Forma: {df.shape}")
print(f"\nTipo de datos:\n{df.dtypes}")

Tamaño: 20
Forma: (5, 4)

Tipo de datos:
C1    int32
C2    int32
C2    int32
C4    int32
dtype: object


Otra forma de obtener información de un DataFrame es con el método `info()`:

In [10]:
df.info()   # Dtype objet: str

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, F1 to F5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   C1      5 non-null      int32
 1   C2      5 non-null      int32
 2   C2      5 non-null      int32
 3   C4      5 non-null      int32
dtypes: int32(4)
memory usage: 120.0+ bytes


Las propiedades de un DataFrame columns, index y values arrojan la información de columnas y indices (como objetos Index) y los valores en su forma original (en este caso, como un arreglo Numpy):

In [11]:
print(df.columns)
print(df.index)
print(df.values)

Index(['C1', 'C2', 'C2', 'C4'], dtype='object')
Index(['F1', 'F2', 'F3', 'F4', 'F5'], dtype='object')
[[16 97 54 45]
 [24 38 39 11]
 [49 63 68 53]
 [80 20 63 20]
 [70 31 69 88]]


El método `describe()` retorna ls estadísticas del DataFrame:

In [12]:
print(df.describe())

              C1         C2         C2         C4
count   5.000000   5.000000   5.000000   5.000000
mean   47.800000  49.800000  58.600000  43.400000
std    27.878307  30.752236  12.461942  30.336447
min    16.000000  20.000000  39.000000  11.000000
25%    24.000000  31.000000  54.000000  20.000000
50%    49.000000  38.000000  63.000000  45.000000
75%    70.000000  63.000000  68.000000  53.000000
max    80.000000  97.000000  69.000000  88.000000


## DataFrame como tabla de datos
Probemos un DataFrame que combine texto con numeros más parecido a un caso real:

In [13]:
df = pd.DataFrame(data=[
                          ['Lima', 'Lima', 9485405],
                          ['Piura', 'Piura', 1856809],
                          ['La Libertad', 'Trujillo', 1778080],
                          ['Arequipa', 'Arequipa', 1382730],
                          ['Cajamarca', 'Cajamarca', 1341012],
                          ['Junin', 'Huancayo', 1246038],
                          ['Cuzco', 'Cuzco', 1205527],
                      ], 
                   columns=['Departamento', 'Capital', 'Pob [2017]'])
df

Unnamed: 0,Departamento,Capital,Pob [2017]
0,Lima,Lima,9485405
1,Piura,Piura,1856809
2,La Libertad,Trujillo,1778080
3,Arequipa,Arequipa,1382730
4,Cajamarca,Cajamarca,1341012
5,Junin,Huancayo,1246038
6,Cuzco,Cuzco,1205527


El método `head(n)` retorna las primeras n filas de un DataFrame (n=5 por defecto):

In [14]:
df.head(3)

Unnamed: 0,Departamento,Capital,Pob [2017]
0,Lima,Lima,9485405
1,Piura,Piura,1856809
2,La Libertad,Trujillo,1778080


El método `tail(n)` retorna las últimas n filas de un DataFrame (n=5 por defecto):

In [15]:
df.tail(3)

Unnamed: 0,Departamento,Capital,Pob [2017]
4,Cajamarca,Cajamarca,1341012
5,Junin,Huancayo,1246038
6,Cuzco,Cuzco,1205527


Cuando se utilizan los corchetes `[]` para especificar un índice, este tiene que tener la información de la columna:

In [16]:
df['Departamento']   # El indice son las columnas

0           Lima
1          Piura
2    La Libertad
3       Arequipa
4      Cajamarca
5          Junin
6          Cuzco
Name: Departamento, dtype: object

También se existe en método `get()` que retorna la información de una columna, que al igual que en los diccionarios, no genera una excepción si la columna no existe.

In [17]:
df.get('Departamento')    # No genera una excepción en caso la columna no exista

0           Lima
1          Piura
2    La Libertad
3       Arequipa
4      Cajamarca
5          Junin
6          Cuzco
Name: Departamento, dtype: object

Se puede especificar una lista de indices de columnas:

In [18]:
df[['Departamento', 'Pob [2017]']]

Unnamed: 0,Departamento,Pob [2017]
0,Lima,9485405
1,Piura,1856809
2,La Libertad,1778080
3,Arequipa,1382730
4,Cajamarca,1341012
5,Junin,1246038
6,Cuzco,1205527


Tambien tenemos el método `loc[]` que permite utilizar las etiquetas de filas y columnas, ya que tenemos una estructura de dos dimensiones:

In [19]:
df.loc[0]      # loc[row, columns] con etiquetas

Departamento       Lima
Capital            Lima
Pob [2017]      9485405
Name: 0, dtype: object

In [20]:
df.loc[1,'Capital']

'Piura'

Así también, se tiene `iloc[]` para especificar las posiciones de los elementos, de forma semejante como sucede con un arreglo de Numpy:

In [21]:
df.iloc[:,2]      # iloc[row, columns] con indices

0    9485405
1    1856809
2    1778080
3    1382730
4    1341012
5    1246038
6    1205527
Name: Pob [2017], dtype: int64

In [24]:
df.iloc[0,1:]

Capital          Lima
Pob [2017]    9485405
Name: 0, dtype: object

Se puede utilizar indexación booleana, pero por cada columna (como sucedía con una Serie, ya que se puede entender que cada columna de un DataFrame es una Serie). Por ejemplo, considere la siguiente instrucción:

In [25]:
df[df['Pob [2017]'] < 1300000]       # Esto no se parece a "SELECT * FROM table WHERE Pobl [2017] < 1300000"???

Unnamed: 0,Departamento,Capital,Pob [2017]
5,Junin,Huancayo,1246038
6,Cuzco,Cuzco,1205527


O la sigiuente expresión donde se especifica la columna a extraer según un criterio en otra columna:

In [26]:
df["Departamento"][df['Pob [2017]'] < 1300000]     # Esto no se parece a "SELECT Departamento FROM tabla WHERE Pobl [2017] < 1300000"???

5    Junin
6    Cuzco
Name: Departamento, dtype: object

Así también, las operaciones de ordenamientos van reordenar los datos con los indices por fila, pero se debe especificar cual será la columna por la que se ordenará todo el DataFrame (con la propiedad `by`):

In [27]:
df.sort_values(by='Departamento')

Unnamed: 0,Departamento,Capital,Pob [2017]
3,Arequipa,Arequipa,1382730
4,Cajamarca,Cajamarca,1341012
6,Cuzco,Cuzco,1205527
5,Junin,Huancayo,1246038
2,La Libertad,Trujillo,1778080
0,Lima,Lima,9485405
1,Piura,Piura,1856809


In [28]:
df

Unnamed: 0,Departamento,Capital,Pob [2017]
0,Lima,Lima,9485405
1,Piura,Piura,1856809
2,La Libertad,Trujillo,1778080
3,Arequipa,Arequipa,1382730
4,Cajamarca,Cajamarca,1341012
5,Junin,Huancayo,1246038
6,Cuzco,Cuzco,1205527


Al igual que una Serie, los métodos de un DataFrame retornan DataFrames nuevos, por lo que será necesario utilizar `inplace=True` para fijar los cambios:

In [29]:
df.sort_values(by='Departamento', inplace=True)
df

Unnamed: 0,Departamento,Capital,Pob [2017]
3,Arequipa,Arequipa,1382730
4,Cajamarca,Cajamarca,1341012
6,Cuzco,Cuzco,1205527
5,Junin,Huancayo,1246038
2,La Libertad,Trujillo,1778080
0,Lima,Lima,9485405
1,Piura,Piura,1856809


## Algunos métodos de un DataFrame
Al igual que en las Series, hay muchos métodos en un DataFrame que retornan resultados de la aplicación de operaciones sobre valores numéricos, por ejemplo, pero al ser un DataFrame una estructura tabular es necesario (como sucede con los Arrays de NumPy) especificar la dirección de las operaciones con parametro `axis`:

In [30]:
df = pd.DataFrame(data=np.random.randint(10, 99, (5, 10)))
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,27,51,74,44,65,26,51,88,77,55
1,11,32,64,49,45,31,63,72,47,80
2,65,75,93,35,72,58,16,70,84,58
3,19,77,14,66,80,26,75,40,37,91
4,83,95,28,70,58,88,88,57,96,48


In [31]:
print(f"Suma por columna:\n{df.sum()}")   # axis=0 por defecto
print(f"Suma por fila:\n{df.sum(axis=1)}")

Suma por columna:
0    205
1    330
2    273
3    264
4    320
5    229
6    293
7    327
8    341
9    332
dtype: int64
Suma por fila:
0    558
1    494
2    626
3    525
4    711
dtype: int64


Otro ejemplo: si se utiliza `pop` sobre un DataFrame, extraerá una columna completa, por lo que habrá que especificar la etiqueta (o en este caso el indice) de la columna:

In [32]:
val = df.pop(0)
print(val)
df

0    27
1    11
2    65
3    19
4    83
Name: 0, dtype: int32


Unnamed: 0,1,2,3,4,5,6,7,8,9
0,51,74,44,65,26,51,88,77,55
1,32,64,49,45,31,63,72,47,80
2,75,93,35,72,58,16,70,84,58
3,77,14,66,80,26,75,40,37,91
4,95,28,70,58,88,88,57,96,48


Y si se utiliza `drop()` se utiliza una etiqueta para una fila o una columna, por lo que habrá que especificar con `axis` la dirección del método (axis=1 para las columnas) o utilizar la propiedad columns o rows para especificar a que hace referencia la etiqueta.

In [33]:
df.drop(columns=9)

Unnamed: 0,1,2,3,4,5,6,7,8
0,51,74,44,65,26,51,88,77
1,32,64,49,45,31,63,72,47
2,75,93,35,72,58,16,70,84
3,77,14,66,80,26,75,40,37
4,95,28,70,58,88,88,57,96


En un DataFrame tambien se pueden agregar elementos, que en este caso será agregar filas o columnas:

In [35]:
# Agregamos columnas con []
df[10] = np.random.randint(10, 100, 5)
df

Unnamed: 0,1,2,3,4,5,6,7,8,9,10
0,51,74,44,65,26,51,88,77,36,21
1,32,64,49,45,31,63,72,47,62,59
2,75,93,35,72,58,16,70,84,23,94
3,77,14,66,80,26,75,40,37,93,15
4,95,28,70,58,88,88,57,96,57,93


In [37]:
# Agregamos filas con loc[]
df.loc[5] = np.random.randint(10, 100, 10)
df

Unnamed: 0,1,2,3,4,5,6,7,8,9,10
0,51,74,44,65,26,51,88,77,36,21
1,32,64,49,45,31,63,72,47,62,59
2,75,93,35,72,58,16,70,84,23,94
3,77,14,66,80,26,75,40,37,93,15
4,95,28,70,58,88,88,57,96,57,93
5,32,48,14,38,46,86,68,58,68,31


Podemos combinar todas estas operaciones para agregar columnas a una DataFrame con resultados del DataFrame:

In [44]:
df['Suma'] = df.iloc[:,:-1].sum(axis=1)   # Que pasa si elimina .loc[:,:-1]
df

Unnamed: 0,1,2,3,4,5,6,7,8,9,10,Suma
0,51,74,44,65,26,51,88,77,36,21,533
1,32,64,49,45,31,63,72,47,62,59,524
2,75,93,35,72,58,16,70,84,23,94,620
3,77,14,66,80,26,75,40,37,93,15,523
4,95,28,70,58,88,88,57,96,57,93,730
5,32,48,14,38,46,86,68,58,68,31,489


In [50]:
df['Promedio'] = df.iloc[:,:10].mean(axis=1)
df

Unnamed: 0,1,2,3,4,5,6,7,8,9,10,Suma,Promedio
0,51,74,44,65,26,51,88,77,36,21,533,53.3
1,32,64,49,45,31,63,72,47,62,59,524,52.4
2,75,93,35,72,58,16,70,84,23,94,620,62.0
3,77,14,66,80,26,75,40,37,93,15,523,52.3
4,95,28,70,58,88,88,57,96,57,93,730,73.0
5,32,48,14,38,46,86,68,58,68,31,489,48.9


Podemos hacer operaciones de búsqueda con `where`, lo que retornará varios NaN en el DataFrame

In [51]:
df.where(df['Promedio'] > 60)

Unnamed: 0,1,2,3,4,5,6,7,8,9,10,Suma,Promedio
0,,,,,,,,,,,,
1,,,,,,,,,,,,
2,75.0,93.0,35.0,72.0,58.0,16.0,70.0,84.0,23.0,94.0,620.0,62.0
3,,,,,,,,,,,,
4,95.0,28.0,70.0,58.0,88.0,88.0,57.0,96.0,57.0,93.0,730.0,73.0
5,,,,,,,,,,,,


## Gestión de los NaN
Al igual que en una Serie, en un DataFrame tambien habra que gestionar que hacer con los valores NaN. Si se requiere reemplazarlos, se tendran que procesar a nivel de columnas:

In [52]:
df = pd.DataFrame([[10, 13, 13, 20, 32], [12, np.nan, np.nan, 23, np.nan], [12, np.nan, 21, ]])     # Tambien de puede utiliza el tipo pd.NA
df

Unnamed: 0,0,1,2,3,4
0,10,13.0,13.0,20.0,32.0
1,12,,,23.0,
2,12,,21.0,,


Eliminamos las filas que contengan NaN

In [53]:
df.dropna()

Unnamed: 0,0,1,2,3,4
0,10,13.0,13.0,20.0,32.0


Eliminamos las columnas que contengas NaN

In [54]:
df.dropna(axis=1)

Unnamed: 0,0
0,10
1,12
2,12


Reemplazamos todos los NaN en un DataFrame por otro valor

In [55]:
df.fillna('-')

Unnamed: 0,0,1,2,3,4
0,10,13,13,20,32
1,12,-,-,23,-
2,12,-,21,-,-


Eliminamos las columnas que tengan mas NaN en cantidad que un valor de umbral

In [56]:
df.dropna(thresh=2, axis=1)    # Elimina columnas 1 y 4 (Hay mas de 2 NaN: valor de umbral)

Unnamed: 0,0,2,3
0,10,13.0,20.0
1,12,,23.0
2,12,21.0,


Otro caso especial es tener filas con información duplicada.

In [57]:
df = pd.DataFrame(data=[['Ana', 1.70, 68], ['Jose', 1.67, 80], ['Pedro', 1.72, 82], ['Ana', 1.70, 68]], 
                  columns=['Nombre', 'Peso', 'Altura'])
df

Unnamed: 0,Nombre,Peso,Altura
0,Ana,1.7,68
1,Jose,1.67,80
2,Pedro,1.72,82
3,Ana,1.7,68


In [58]:
df.duplicated()

0    False
1    False
2    False
3     True
dtype: bool

In [59]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,Nombre,Peso,Altura
0,Ana,1.7,68
1,Jose,1.67,80
2,Pedro,1.72,82


## Reetiquetado de filas y columnas
Otra operación común en Pandas es cambiar las etiquetas de las filas o columnas. Esto se puede hacer redefiniendo las propedades `columns` e `index` de un DataFrame:

In [60]:
df = pd.DataFrame(data=np.random.randint(10, 99, (5, 10)))
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,23,29,85,82,10,52,51,22,90,58
1,42,44,98,13,76,88,55,15,45,44
2,19,48,96,38,26,72,75,89,89,39
3,25,19,83,44,80,43,88,59,89,79
4,49,86,75,31,74,36,21,46,36,75


In [61]:
df.columns = ['C1','C2','C3','C4','C5','C6','C7','C8','C9','C10']
df

Unnamed: 0,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10
0,23,29,85,82,10,52,51,22,90,58
1,42,44,98,13,76,88,55,15,45,44
2,19,48,96,38,26,72,75,89,89,39
3,25,19,83,44,80,43,88,59,89,79
4,49,86,75,31,74,36,21,46,36,75


In [62]:
df.index = ['F1','F2','F3','F4','F5']
df

Unnamed: 0,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10
F1,23,29,85,82,10,52,51,22,90,58
F2,42,44,98,13,76,88,55,15,45,44
F3,19,48,96,38,26,72,75,89,89,39
F4,25,19,83,44,80,43,88,59,89,79
F5,49,86,75,31,74,36,21,46,36,75


Otra forma de realizarla mismo es con el método `rename` donde se especifica un mapa con la etiqueta actual y la nueva etiqueta en un diccionario, y se puede especificar las propiedades `columns` e `index`:

In [63]:
df = pd.DataFrame(data=np.random.randint(10, 99, (5, 10)))
df.rename(columns={0:'C1', 1:'C2', 2:'C3', 3:'C4', 4:'C6', 5:'C6', 6:'C7', 7:'C8', 8:'C9', 9:'C10'}, 
         index={0:'F1', 1:'F2', 2:'F3', 3:'F4', 4:'F5'})      # inplace=True para fijar los cambios

Unnamed: 0,C1,C2,C3,C4,C6,C6.1,C7,C8,C9,C10
F1,13,51,22,12,84,94,89,65,58,13
F2,25,29,31,73,41,65,50,53,41,11
F3,14,69,36,44,68,90,75,77,31,20
F4,60,83,55,70,26,95,80,26,12,33
F5,81,16,18,76,26,69,49,57,16,50


El método rename también puede utilizar una función en lugar de un diccionario. Por ejemplo, una funcion `lambda` que tome las etiquetas de fila y columnas y las inserte en un `str`:

In [64]:
df.rename(columns=lambda x: 'C' + str(x+1), 
         index = lambda x: 'F' + str(x+1))

Unnamed: 0,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10
F1,13,51,22,12,84,94,89,65,58,13
F2,25,29,31,73,41,65,50,53,41,11
F3,14,69,36,44,68,90,75,77,31,20
F4,60,83,55,70,26,95,80,26,12,33
F5,81,16,18,76,26,69,49,57,16,50


Otra caso usual consiste en reemplazar alguna de las columnas como indice de filas. Por ejemplo, en el siguiente DataFrame la columna ID se quiere considerarla como index de columnas:

In [65]:
df = pd.DataFrame([[1, 18, 13, 15], [2, 9, 12, 18], [3, 14, 17, 11], [4, 9, 10, 12]], 
                 columns=['ID', 'NOTA1', 'NOTA2', 'NOTA3'])
df

Unnamed: 0,ID,NOTA1,NOTA2,NOTA3
0,1,18,13,15
1,2,9,12,18
2,3,14,17,11
3,4,9,10,12


In [66]:
df.index = df['ID']
df.drop(columns='ID')    # Este paso es opcional

Unnamed: 0_level_0,NOTA1,NOTA2,NOTA3
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,18,13,15
2,9,12,18
3,14,17,11
4,9,10,12
