# Cuaderno 11: DataFrames

El `DataFrame` constituye el segundo tipo de datos fundamental de la biblioteca `pandas`. Es una estructura de datos bidimensional y etiquetada, organizada en filas y en columnas, donde las columnas pueden ser de diferentes tipos. Puede considerarse a un DataFrame como una hoja de cálculo, como una tabla en una base de datos, o como un diccionario de series.

Examinaremos en este cuaderno algunos conceptos básicos sobre el tipo `DataFrame`. Empezamos por importar los módulos de `pandas`y `numpy`:

In [1]:
# importar pandas y NumPy
import numpy as np
import pandas as pd

## Creación

Un `DataFrame` puede crearse a partir de un diccionario de `Series`. Cada serie pasa a ser una columna del DataFrame. Las series pueden ser de distintos tipos de datos.

In [4]:
# una serie con las primeras notas de una lista de alumnos
s1 = pd.Series([8.3, 7.8, 6.5, 7.5, 9.1], 
               index= ['Eduardo', 'Carla', 'Pablo', 'Mariana', 'Alexandra'], name='Nota1')
print(s1)
print('---')
# una serie con las segundas notas, el alumno 'Pablo' se retira
s2 = pd.Series([8.5, 7.4, 8.5, 8.9], 
               index= ['Eduardo', 'Carla', 'Mariana', 'Alexandra'], name='Nota2')
print(s2)
print('---')
# una serie con las carreras de cada alumno
s3 = pd.Series(['Física', 'Economía', 'Economía', 'Ing. Matemática','Matemática'], 
               index= ['Alexandra', 'Pablo', 'Eduardo', 'Carla', 'Mariana'], name='Carrera')
print(s3)
print('---')
# creamos un diccionario las tres series
Dnotas = {'Nota 1' : s1, 'Nota 2' : s2, 'Carrera' : s3}
# a partir de este diccionario, creamos un DataFrame
dfnotas= pd.DataFrame(Dnotas)
print (dfnotas)


Eduardo      8.3
Carla        7.8
Pablo        6.5
Mariana      7.5
Alexandra    9.1
Name: Nota1, dtype: float64
---
Eduardo      8.5
Carla        7.4
Mariana      8.5
Alexandra    8.9
Name: Nota2, dtype: float64
---
Alexandra             Física
Pablo               Economía
Eduardo             Economía
Carla        Ing. Matemática
Mariana           Matemática
Name: Carrera, dtype: object
---
           Nota 1  Nota 2          Carrera
Alexandra     9.1     8.9           Física
Carla         7.8     7.4  Ing. Matemática
Eduardo       8.3     8.5         Economía
Mariana       7.5     8.5       Matemática
Pablo         6.5     NaN         Economía


El índice del `DataFrame` es la unión de los índices de todas las series. Notar que las series se alinean automáticamente, y que los valores faltantes se sustituyen automáticamente por `NaN`.

Por defecto, los cuadernos de Jupyter tienen capacidades de formateo para mostrar los objetos de tipo `DataFrame`:

In [5]:
dfnotas

Unnamed: 0,Nota 1,Nota 2,Carrera
Alexandra,9.1,8.9,Física
Carla,7.8,7.4,Ing. Matemática
Eduardo,8.3,8.5,Economía
Mariana,7.5,8.5,Matemática
Pablo,6.5,,Economía


Puede accederse también a esta salida con formato llamando explícitamente a la función `display`:

In [6]:
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Carrera
Alexandra,9.1,8.9,Física
Carla,7.8,7.4,Ing. Matemática
Eduardo,8.3,8.5,Economía
Mariana,7.5,8.5,Matemática
Pablo,6.5,,Economía


Debido a que cada objeto `Series` puede ser creado a partir de un diccionario, un `DataFrame`puede crearse también a partir de un diccionario de diccionarios. El conjunto de índices del `DataFrame` es la unión de las claves de los diccionarios, los valores faltantes se sustituyen automáticamente por `NaN`.

In [7]:
# un diccionario con los alumnos (claves) y sus primeras notas (valores)
Dnotas1 = {'Eduardo' : 8.3, 'Carla' : 7.8, 'Pablo' : 6.5, 
      'Mariana' : 7.5, 'Alexandra' : 9.1}
print(Dnotas1)
print('---')
# un diccionario con los alumnos (claves) y sus segundas notas (valores)
# el alumno Pablo se retiró
Dnotas2 = {'Eduardo' : 8.5, 'Carla' : 7.4, 'Mariana' : 8.5, 'Alexandra' : 8.9}
print(Dnotas2)
print('---')
# un diccionario con las carreras de cada alumno
DCarreras = {'Alexandra' : 'Física', 'Pablo' : 'Economía', 
             'Eduardo' : 'Economía', 'Carla' : 'Ing. Matemática', 
             'Mariana' : 'Matemática'}
print(DCarreras)
print('---')
# creamos un diccionario con los tres diccionarios
Dnotas = {'Nota 1' : Dnotas1, 'Nota 2' : Dnotas2, 'Carrera' : DCarreras}
print(Dnotas)
print('---')
# a partir de este diccionario, creamos un DataFrame
dfnotas= pd.DataFrame(Dnotas)
display(dfnotas)


{'Eduardo': 8.3, 'Carla': 7.8, 'Pablo': 6.5, 'Mariana': 7.5, 'Alexandra': 9.1}
---
{'Eduardo': 8.5, 'Carla': 7.4, 'Mariana': 8.5, 'Alexandra': 8.9}
---
{'Alexandra': 'Física', 'Pablo': 'Economía', 'Eduardo': 'Economía', 'Carla': 'Ing. Matemática', 'Mariana': 'Matemática'}
---
{'Nota 1': {'Eduardo': 8.3, 'Carla': 7.8, 'Pablo': 6.5, 'Mariana': 7.5, 'Alexandra': 9.1}, 'Nota 2': {'Eduardo': 8.5, 'Carla': 7.4, 'Mariana': 8.5, 'Alexandra': 8.9}, 'Carrera': {'Alexandra': 'Física', 'Pablo': 'Economía', 'Eduardo': 'Economía', 'Carla': 'Ing. Matemática', 'Mariana': 'Matemática'}}
---


Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática
Pablo,6.5,,Economía
Mariana,7.5,8.5,Matemática
Alexandra,9.1,8.9,Física


Otra alternativa para crear un `DataFrame` es a partir de un diccionario de listas o de arreglos unidimensionales. Cada clave del diccionario corresponde al nombre de una columna del `DataFrame`, y tiene asociada una lista o un arreglo unidimensional con los valores de las columnas. En este caso, es obligatorio que todas las listas o arreglos tengan la misma longitud. Los valores faltantes deben llenarse explícitamente con `np.nan`:

In [8]:
notas1 = [8.3, 7.8, 6.5, 7.5, 9.1]
notas2 = np.array([8.5, 7.4, np.nan, 8.5, 8.9])
carreras = ['Economía', 'Ing. Matemática', 'Economía', 'Matemática', 'Física']
Dnotas = {'Nota 1' : notas1, 'Nota 2' : notas2, 'Carrera' : carreras}
print(Dnotas)
dfnotas = pd.DataFrame(Dnotas)
display(dfnotas)

{'Nota 1': [8.3, 7.8, 6.5, 7.5, 9.1], 'Nota 2': array([8.5, 7.4, nan, 8.5, 8.9]), 'Carrera': ['Economía', 'Ing. Matemática', 'Economía', 'Matemática', 'Física']}


Unnamed: 0,Nota 1,Nota 2,Carrera
0,8.3,8.5,Economía
1,7.8,7.4,Ing. Matemática
2,6.5,,Economía
3,7.5,8.5,Matemática
4,9.1,8.9,Física


Es posible especificar el índice del `DataFrame` asignando al parámetro `index` una lista o arreglo del tamaño adecuado:

In [9]:
dfnotas = pd.DataFrame(Dnotas, index = ['Eduardo', 'Carla', 'Pablo', 'Mariana', 'Alexandra'])
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática
Pablo,6.5,,Economía
Mariana,7.5,8.5,Matemática
Alexandra,9.1,8.9,Física


Un arreglo bidimensional puede utilizarse para crear un `DataFrame`, en cuyo caso los tipos de todas las columnas serán iguales. Sin embargo, es preciso señalar que la clase `DataFrame` **no** está diseñada para trabajar como un arreglo bidimensional.

In [10]:
matriz = np.arange(11, 21).reshape((2,5))
print(matriz)
dfmatriz = pd.DataFrame(matriz)
display(dfmatriz)

[[11 12 13 14 15]
 [16 17 18 19 20]]


Unnamed: 0,0,1,2,3,4
0,11,12,13,14,15
1,16,17,18,19,20


De mayor utilidad resulta la creación de un `DataFrame` a partir de un *arreglo unidimensional estructurado*. Los elementos de este arreglo son tuplas que representan cada una de las filas de datos del `DataFrame`. Los nombres de los campos del tipo estructurado pasan a ser los nombres de las columnas del `DataFrame`:

In [12]:
# crear un arreglo de cinco elementos iguales a "cero"
# cada elemento del arreglo es una tupla (Nota1, Nota2, 'Carrera')
anotas = np.zeros((5,), dtype=[("Nota 1", "float64"), ("Nota 2", "float64"), ("Carrera", "object")])
print(anotas)
print('---')
# llenar el arreglo con los datos
anotas[0]=(8.3, 8.5, "Economía")
anotas[1]=(7.8, 7.4, 'Ing. Matemática')
anotas[2]=(6.5, np.nan, 'Economía')
anotas[3]=(7.5, 8.5, 'Matemática')
anotas[4]=(9.1, 8.9, 'Física')
print(anotas)
print('---')
# convertir el arreglo en un DataFrame, especificar un índice
dfnotas = pd.DataFrame(anotas, index = ['Eduardo', 'Carla', 'Pablo', 'Mariana', 'Alexandra'])
display(dfnotas)

[(0., 0., 0) (0., 0., 0) (0., 0., 0) (0., 0., 0) (0., 0., 0)]
---
[(8.3, 8.5, 'Economía') (7.8, 7.4, 'Ing. Matemática')
 (6.5, nan, 'Economía') (7.5, 8.5, 'Matemática') (9.1, 8.9, 'Física')]
---


Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática
Pablo,6.5,,Economía
Mariana,7.5,8.5,Matemática
Alexandra,9.1,8.9,Física


Otra posibilidad para crear un `DataFrame` fila por fila es a través de una lista de diccionarios. Las claves de cada diccionario corresponden a los nombres de las columnas, y los valores asociados a los datos de cada fila. Los valores faltantes son sustituidos automáticamente por `NaN`, y es posible especificar un índice para las filas del `DataFrame` utilizando el parámetro `index`:

In [13]:
# lista de diccionarios
# cada diccionario contiene la información de una fila del DataFrame
Lnotas = [{'Nota 1' : 8.3, 'Nota 2' : 8.5, 'Carrera' : 'Economía'},
          {'Nota 1' : 7.8, 'Nota 2' : 7.4, 'Carrera' : 'Ing. Matemática'},
          {'Nota 1' : 6.5, 'Carrera' : 'Economía'}, # falta Nota 2
          {'Nota 1' : 7.5, 'Nota 2' : 8.5, 'Carrera' : 'Matemática'},
          {'Nota 2' : 8.9, 'Carrera' : 'Física', 'Nota 1' : 9.1}
         ]
# convertir la lista de diccionarios en un DataFrame, especificar un índice
dfnotas = pd.DataFrame(Lnotas, index = ['Eduardo', 'Carla', 'Pablo', 'Mariana', 'Alexandra'])
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática
Pablo,6.5,,Economía
Mariana,7.5,8.5,Matemática
Alexandra,9.1,8.9,Física


## Indexación y selección

Un `DataFrame` tiene dos índices: uno para las filas y otro para las columnas. Estos índices puede ser recuperados a partir de las propiedades `index` (filas) y `columns` (columnas), respectivamente:

In [14]:
display(dfnotas)
print(dfnotas.index)
print(dfnotas.columns)

Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática
Pablo,6.5,,Economía
Mariana,7.5,8.5,Matemática
Alexandra,9.1,8.9,Física


Index(['Eduardo', 'Carla', 'Pablo', 'Mariana', 'Alexandra'], dtype='object')
Index(['Nota 1', 'Nota 2', 'Carrera'], dtype='object')


Para acceder a un elemento individual de un `DataFrame` puede utilizarse el operador de indexación `.loc[]`, con un par ordenado de elementos de los índices de fila y columna. Alternativamente, puede usarse el operador `.iloc[]` con un par de enteros no negativos que denotan posiciones de fila y columna (empezando desde cero):

In [15]:
# carrera de Carla
print(dfnotas.loc['Carla', 'Carrera'])
# Nota 1 de Pablo
print(dfnotas.loc['Pablo', 'Nota 1'])
# última fila, última columna
print(dfnotas.iloc[-1,-1])
# primera fila, segunda columna
print(dfnotas.iloc[0,1])


Ing. Matemática
6.5
Física
8.5


Es posible omitir el parámetro correspondiente a la columna en los operadores `.loc[]` y `.iloc[]`. En este caso, los operadores retornan una fila completa del `DataFrame` como una serie. El tipo de datos de la serie (`dtype`) es un tipo lo suficientemente general como para albergar a todos los datos de la serie. Los nombres de las columnas se usan como índices de la serie. El valor de `index` asociado a la fila del `DataFrame` es usado como nombre de la serie:

In [16]:
# serie con los datos correspondientes a Mariana
print(dfnotas.loc['Mariana'])
print(type(dfnotas.loc['Mariana']))
print('---')
# serie correspondiente a la primera fila
print(dfnotas.iloc[0])
print(type(dfnotas.iloc[0]))

Nota 1            7.5
Nota 2            8.5
Carrera    Matemática
Name: Mariana, dtype: object
<class 'pandas.core.series.Series'>
---
Nota 1          8.3
Nota 2          8.5
Carrera    Economía
Name: Eduardo, dtype: object
<class 'pandas.core.series.Series'>


Utilizando el operador de rango `:` se puede seleccionar un rango de filas, bien sea a través de los nombres de sus índices, o en base a su posición. En este caso, los operadores retornan un `DataFrame`, incluso si el mismo contiene una sola fila:

In [17]:
display(dfnotas.loc['Eduardo':'Pablo'])
# rango de filas desde Eduardo hasta Pablo
print(type(dfnotas.loc['Eduardo':'Pablo']))
print('---')
# dos últimas filas
display(dfnotas.iloc[-2:])
print(type(dfnotas.iloc[-2:]))
print('---')
# penúltima fila
display(dfnotas.iloc[-2:-1])
print(type(dfnotas.iloc[-2:-1]))


Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática
Pablo,6.5,,Economía


<class 'pandas.core.frame.DataFrame'>
---


Unnamed: 0,Nota 1,Nota 2,Carrera
Mariana,7.5,8.5,Matemática
Alexandra,9.1,8.9,Física


<class 'pandas.core.frame.DataFrame'>
---


Unnamed: 0,Nota 1,Nota 2,Carrera
Mariana,7.5,8.5,Matemática


<class 'pandas.core.frame.DataFrame'>


El operador `[]` aplicado directamente a un `DataFrame` permite seleccionar columnas individuales por su nombre. Este operador retorna una serie cuyo índice es el índice de las filas del `DataFrame`, cuyos valores son los valores de la columna seleccionada, preservando su `dtype`, y cuyo nombre es el nombre de la columna. 

In [18]:
# Seleccionar columna con la primera nota
print(dfnotas['Nota 1'])
print(type(dfnotas['Nota 1']))

Eduardo      8.3
Carla        7.8
Pablo        6.5
Mariana      7.5
Alexandra    9.1
Name: Nota 1, dtype: float64
<class 'pandas.core.series.Series'>


Para seleccionar varias columnas, puede pasarse una lista con sus nombres al operador `[]`. Esta lista puede ser ordenada arbitrariamente:

In [19]:
# Seleccionar columnas de notas, primero la segunda nota
display(dfnotas[['Nota 2', 'Nota 1']])

Unnamed: 0,Nota 2,Nota 1
Eduardo,8.5,8.3
Carla,7.4,7.8
Pablo,,6.5
Mariana,8.5,7.5
Alexandra,8.9,9.1


**Importante:** Si el operador `[]` es aplicado directamente al `DataFrame` pero es con el operador de rango `:`, entonces se usa para seleccionar un **rango de filas**, no de columnas. El rango puede especificarse bien sea a través de los nombres de índices de las filas o de su posición. Este operador retorna un `DataFrame`:

In [21]:
# Seleccionar tres primera filas
display(dfnotas[0:2])
# Seleccionar las filas desde Carla hasta Mariana
display(dfnotas['Carla':'Mariana'])
# Lo siguiente causa un KeyError:
# display(dfnotas['Nota 1': 'Nota 2'])

Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática


Unnamed: 0,Nota 1,Nota 2,Carrera
Carla,7.8,7.4,Ing. Matemática
Pablo,6.5,,Economía
Mariana,7.5,8.5,Matemática


KeyError: 'Nota 1'

## Mostrar primeras / últimas filas

Cuando los DataFrames son extensos, a veces conviene examinar las primeras / últimas filas de los mismos. Esto puede conseguirse con los métodos `head` y `tail`:

In [22]:
# con head se muestran las primeras filas de un DataFrame 
display(dfnotas.head(2))
# con tail se muestran las últimas filas de un DataFrame 
display(dfnotas.tail(3))

Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática


Unnamed: 0,Nota 1,Nota 2,Carrera
Pablo,6.5,,Economía
Mariana,7.5,8.5,Matemática
Alexandra,9.1,8.9,Física


## Operaciones de columnas

Como las columnas de un `DataFrame` son series, es posible aplicar en ellas todas las operaciones disponibles para ese tipo de datos:

In [23]:
display(dfnotas)
# sumar las dos primeras notas
print(dfnotas['Nota 1']+dfnotas['Nota 2'])
print('---')
# duplicar la segunda nota
print(dfnotas['Nota 2']*2)
print('---')
# calcular el promedio de la primera nota entre todos los alumnos
print('Promedio 1ra nota: {}'.format(dfnotas['Nota 1'].mean()))
print('---')
# calcular la suma de la segunda nota entre todos los alumnos
# (datos faltantes son ignorados)
print('Suma 2da nota: {}'.format(dfnotas['Nota 2'].sum()))
print('---')

Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática
Pablo,6.5,,Economía
Mariana,7.5,8.5,Matemática
Alexandra,9.1,8.9,Física


Eduardo      16.8
Carla        15.2
Pablo         NaN
Mariana      16.0
Alexandra    18.0
dtype: float64
---
Eduardo      17.0
Carla        14.8
Pablo         NaN
Mariana      17.0
Alexandra    17.8
Name: Nota 2, dtype: float64
---
Promedio 1ra nota: 7.840000000000001
---
Suma 2da nota: 33.3
---


Al igual que ocurre con arreglos y series, al usar una o más columnas en una comparación, el resultado es una columna con valores booleanos que corresponden al resultado de la comparación para cada fila del `DataFrame`. Si la comparación no puede efectuarse en una fila debido a valores faltantes, el resultado de la comparación es `False`:

In [24]:
# chequear si la nota 1 es mayor a 7.5
print(dfnotas['Nota 1'] > 7.5)
print('---')
# chequear si la nota 2 es mayor a la nota 1
# para Pablo retorna False debido a que falta la segunda nota
print(dfnotas['Nota 2'] > dfnotas['Nota 1'])

Eduardo       True
Carla         True
Pablo        False
Mariana      False
Alexandra     True
Name: Nota 1, dtype: bool
---
Eduardo       True
Carla        False
Pablo        False
Mariana       True
Alexandra    False
dtype: bool


De manera similar a lo que ocurre en series y arreglos, los vectores booleanos generados por las comparaciones de columnas pueden usarse para **filtrar** filas del `DataFrame`:

In [25]:
# filtrar estudiantes con la primera nota mayor a 7.5
display(dfnotas[dfnotas['Nota 1'] > 7.5])
print('---')
# filtrar estudiantes con la nota 2 mayor a la nota 1
display(dfnotas[dfnotas['Nota 2'] > dfnotas['Nota 1']])

Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Carla,7.8,7.4,Ing. Matemática
Alexandra,9.1,8.9,Física


---


Unnamed: 0,Nota 1,Nota 2,Carrera
Eduardo,8.3,8.5,Economía
Mariana,7.5,8.5,Matemática


## Agregar y borrar filas / columnas

Como se señaló al inicio, un DataFrame puede ser considerado como un diccionario de series. Por lo tanto, es posible agregar nuevas columnas a un `DataFrame` en la misma manera como se añaden nuevos datos a un diccionario. Esto resulta útil al momento de crear columnas que se obtengan a partir de operaciones con otras columnas:

In [26]:
# crear nueva columna Total con la suma de las dos notas
dfnotas['Total'] = dfnotas['Nota 1'] + dfnotas['Nota 2']
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Carrera,Total
Eduardo,8.3,8.5,Economía,16.8
Carla,7.8,7.4,Ing. Matemática,15.2
Pablo,6.5,,Economía,
Mariana,7.5,8.5,Matemática,16.0
Alexandra,9.1,8.9,Física,18.0


También es posible añadir columnas con datos vacíos, inicializados al valor de `NaN`, o inicializados a un valor por defecto:

In [27]:
# crear una columna vacía
dfnotas['Nota 3'] = np.nan
# crear una columna inicializada con ceros
dfnotas['Nota 4'] = 0
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Carrera,Total,Nota 3,Nota 4
Eduardo,8.3,8.5,Economía,16.8,,0
Carla,7.8,7.4,Ing. Matemática,15.2,,0
Pablo,6.5,,Economía,,,0
Mariana,7.5,8.5,Matemática,16.0,,0
Alexandra,9.1,8.9,Física,18.0,,0


Para cambiar el orden de las columnas en el DataFrame, puede usarse el operador de indexación `[]` y asignar el resultado al mismo DataFrame:

In [28]:
# cambiar el orden de las columnas
dfnotas= dfnotas[['Nota 1', 'Nota 2', 'Nota 3', 'Nota 4', 'Total', 'Carrera']]
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Eduardo,8.3,8.5,,0,16.8,Economía
Carla,7.8,7.4,,0,15.2,Ing. Matemática
Pablo,6.5,,,0,,Economía
Mariana,7.5,8.5,,0,16.0,Matemática
Alexandra,9.1,8.9,,0,18.0,Física


Para agregar una fila a un DataFrame puede utilizarse el método `append`, pasando como parámetro una serie con los datos de la nueva fila. El índice de la nueva fila es el nombre de la serie. 

También es posible agregar varias filas simultáneamente, pasando a `append` una lista de series:

In [31]:
# agregar nueva fila
display(dfnotas.append(
    pd.Series({'Nota 1' : 7.3, 'Nota 2' : 8.4, 'Carrera' : 'Matemática'}, name = 'José')))
# agregar dos filas nuevas
display(dfnotas.append([
    pd.Series({'Nota 1' : 6.7, 'Nota 2' : 9.5, 'Carrera' : 'Economía'}, name = 'Elena'),
    pd.Series({'Nota 1' : 8.3, 'Nota 2' : 7.2, 'Carrera' : 'Física'}, name = 'Ramiro')]))

Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Eduardo,8.3,8.5,,0.0,16.8,Economía
Carla,7.8,7.4,,0.0,15.2,Ing. Matemática
Pablo,6.5,,,0.0,,Economía
Mariana,7.5,8.5,,0.0,16.0,Matemática
Alexandra,9.1,8.9,,0.0,18.0,Física
José,7.3,8.4,,,,Matemática


Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Eduardo,8.3,8.5,,0.0,16.8,Economía
Carla,7.8,7.4,,0.0,15.2,Ing. Matemática
Pablo,6.5,,,0.0,,Economía
Mariana,7.5,8.5,,0.0,16.0,Matemática
Alexandra,9.1,8.9,,0.0,18.0,Física
Elena,6.7,9.5,,,,Economía
Ramiro,8.3,7.2,,,,Física


Notar que la función `append` **no** modifica el DataFrame, sino que crea una copia de este: 

In [32]:
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Eduardo,8.3,8.5,,0,16.8,Economía
Carla,7.8,7.4,,0,15.2,Ing. Matemática
Pablo,6.5,,,0,,Economía
Mariana,7.5,8.5,,0,16.0,Matemática
Alexandra,9.1,8.9,,0,18.0,Física


Si se desea cambiar el DataFrame, debe asignarse explícitamente el resultado de la función `append` a la variable correspondiente. Este comportamiento es común en muchas de las funciones para alterar el contenido de DataFrames:

In [33]:
dfnotas = dfnotas.append([
    pd.Series({'Nota 1' : 6.7, 'Nota 2' : 9.5, 'Carrera' : 'Economía'}, name = 'Elena'),
    pd.Series({'Nota 1' : 8.3, 'Nota 2' : 7.2, 'Carrera' : 'Física'}, name = 'Ramiro')])
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Eduardo,8.3,8.5,,0.0,16.8,Economía
Carla,7.8,7.4,,0.0,15.2,Ing. Matemática
Pablo,6.5,,,0.0,,Economía
Mariana,7.5,8.5,,0.0,16.0,Matemática
Alexandra,9.1,8.9,,0.0,18.0,Física
Elena,6.7,9.5,,,,Economía
Ramiro,8.3,7.2,,,,Física


Para eliminar filas puede usarse el método `drop`, el mismo que recibe como parámetro el índice de la fila (etiqueta):

In [34]:
# borrar columnas
display(dfnotas)
print('---')
display(dfnotas.drop('Eduardo'))

Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Eduardo,8.3,8.5,,0.0,16.8,Economía
Carla,7.8,7.4,,0.0,15.2,Ing. Matemática
Pablo,6.5,,,0.0,,Economía
Mariana,7.5,8.5,,0.0,16.0,Matemática
Alexandra,9.1,8.9,,0.0,18.0,Física
Elena,6.7,9.5,,,,Economía
Ramiro,8.3,7.2,,,,Física


---


Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Carla,7.8,7.4,,0.0,15.2,Ing. Matemática
Pablo,6.5,,,0.0,,Economía
Mariana,7.5,8.5,,0.0,16.0,Matemática
Alexandra,9.1,8.9,,0.0,18.0,Física
Elena,6.7,9.5,,,,Economía
Ramiro,8.3,7.2,,,,Física


Al igual que el caso de `append`, el método `drop` trabaja por defecto sobre una copia del DataFrame. Si se desea modificar el mismo, debe hacerse explícitamente la asignación respectiva. Alternativamente, el método `drop` permite usar el parámetro `inplace` con este propósito:

In [35]:
# drop trabaja sobre una copia, no altera el DataFrame original
display(dfnotas)
# para alterar el DataFrame, usar inplace=True
print('---')
dfnotas.drop('Eduardo', inplace=True)
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Eduardo,8.3,8.5,,0.0,16.8,Economía
Carla,7.8,7.4,,0.0,15.2,Ing. Matemática
Pablo,6.5,,,0.0,,Economía
Mariana,7.5,8.5,,0.0,16.0,Matemática
Alexandra,9.1,8.9,,0.0,18.0,Física
Elena,6.7,9.5,,,,Economía
Ramiro,8.3,7.2,,,,Física


---


Unnamed: 0,Nota 1,Nota 2,Nota 3,Nota 4,Total,Carrera
Carla,7.8,7.4,,0.0,15.2,Ing. Matemática
Pablo,6.5,,,0.0,,Economía
Mariana,7.5,8.5,,0.0,16.0,Matemática
Alexandra,9.1,8.9,,0.0,18.0,Física
Elena,6.7,9.5,,,,Economía
Ramiro,8.3,7.2,,,,Física


Para eliminar columnas, puede especificarse el parámetro `axis=1` en el método `drop`:

In [36]:
# para eliminar una columna, usar axis=1
dfnotas.drop('Nota 4', inplace=True, axis=1)
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera
Carla,7.8,7.4,,15.2,Ing. Matemática
Pablo,6.5,,,,Economía
Mariana,7.5,8.5,,16.0,Matemática
Alexandra,9.1,8.9,,18.0,Física
Elena,6.7,9.5,,,Economía
Ramiro,8.3,7.2,,,Física


In [37]:
# al asignar un DataFrame a otro, ambos se vinculan al mismo objeto
dfnotas2 = dfnotas
dfnotas2['Nota 4'] = dfnotas2['Nota 1'] + dfnotas2['Nota 2']
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera,Nota 4
Carla,7.8,7.4,,15.2,Ing. Matemática,15.2
Pablo,6.5,,,,Economía,
Mariana,7.5,8.5,,16.0,Matemática,16.0
Alexandra,9.1,8.9,,18.0,Física,18.0
Elena,6.7,9.5,,,Economía,16.2
Ramiro,8.3,7.2,,,Física,15.5


In [38]:
dfnotas.drop('Nota 4', axis=1, inplace=True)
display(dfnotas)
print('---')
# para sacar una copia de un DataFrame, emplear la función copy
dfnotas2 = dfnotas.copy()
dfnotas2['Nota 4'] = dfnotas2['Nota 1'] + dfnotas2['Nota 2']
display(dfnotas)
display(dfnotas2)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera
Carla,7.8,7.4,,15.2,Ing. Matemática
Pablo,6.5,,,,Economía
Mariana,7.5,8.5,,16.0,Matemática
Alexandra,9.1,8.9,,18.0,Física
Elena,6.7,9.5,,,Economía
Ramiro,8.3,7.2,,,Física


---


Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera
Carla,7.8,7.4,,15.2,Ing. Matemática
Pablo,6.5,,,,Economía
Mariana,7.5,8.5,,16.0,Matemática
Alexandra,9.1,8.9,,18.0,Física
Elena,6.7,9.5,,,Economía
Ramiro,8.3,7.2,,,Física


Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera,Nota 4
Carla,7.8,7.4,,15.2,Ing. Matemática,15.2
Pablo,6.5,,,,Economía,
Mariana,7.5,8.5,,16.0,Matemática,16.0
Alexandra,9.1,8.9,,18.0,Física,18.0
Elena,6.7,9.5,,,Economía,16.2
Ramiro,8.3,7.2,,,Física,15.5


Para modificar una columna de un DataFrame, basta con asignarle un nuevo valor:

In [39]:
dfnotas['Nota 3'] = 6.0
dfnotas['Total'] = dfnotas['Nota 1'] + dfnotas['Nota 2'] + dfnotas['Nota 3']
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera
Carla,7.8,7.4,6.0,21.2,Ing. Matemática
Pablo,6.5,,6.0,,Economía
Mariana,7.5,8.5,6.0,22.0,Matemática
Alexandra,9.1,8.9,6.0,24.0,Física
Elena,6.7,9.5,6.0,22.2,Economía
Ramiro,8.3,7.2,6.0,21.5,Física


El método `dropna` elimina todas las filas con uno o más datos faltantes. Nuevamente, retorna una copia del DataFrame con las modificaciones realizadas:

In [40]:
# eliminar filas con datos faltantes
display(dfnotas.dropna())
# recordar que se trabaja sobre una copia
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera
Carla,7.8,7.4,6.0,21.2,Ing. Matemática
Mariana,7.5,8.5,6.0,22.0,Matemática
Alexandra,9.1,8.9,6.0,24.0,Física
Elena,6.7,9.5,6.0,22.2,Economía
Ramiro,8.3,7.2,6.0,21.5,Física


Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera
Carla,7.8,7.4,6.0,21.2,Ing. Matemática
Pablo,6.5,,6.0,,Economía
Mariana,7.5,8.5,6.0,22.0,Matemática
Alexandra,9.1,8.9,6.0,24.0,Física
Elena,6.7,9.5,6.0,22.2,Economía
Ramiro,8.3,7.2,6.0,21.5,Física


El parámetro `inplace` permite modificar el DataFrame original:

In [41]:
# eliminar filas con datos faltantes
dfnotas.dropna(inplace = True)
# recordar que se trabaja sobre una copia
display(dfnotas)

Unnamed: 0,Nota 1,Nota 2,Nota 3,Total,Carrera
Carla,7.8,7.4,6.0,21.2,Ing. Matemática
Mariana,7.5,8.5,6.0,22.0,Matemática
Alexandra,9.1,8.9,6.0,24.0,Física
Elena,6.7,9.5,6.0,22.2,Economía
Ramiro,8.3,7.2,6.0,21.5,Física


## Importación de DataFrames desde archivos

Es posible importar a DataFrames el contenido de archivos de diferentes tipos, así el resultado de consultas a bases de datos y otras fuentes de datos. 

### Ejemplo 1: Importación de un archivo CSV

Para el siguiente ejemplo, vamos a trabajar con un archivo de texto en formato CSV (separado por comas) que contiene los datos de defunciones generales en el Ecuador, en el año 2019. Este archivo ha sido obtenido del sitio web del Instituto Nacional de Estadística y Censos del Ecuador (INEC) <https://www.ecuadorencifras.gob.ec/defunciones-generales-2019/>. Podemos verificar que los diferentes campos en este archivo están separados por el caracter `;` y que la primera fila contiene el nombre de las columnas. 

Para importar este archivo a un DataFrame usamos la función `read_csv`:

In [42]:
dfdefunciones = pd.read_csv('BDD_EDG_2019.csv', sep=';')
display(dfdefunciones)

Unnamed: 0,Númeración,prov_insc,cant_insc,parr_insc,anio_insc,mes_insc,dia_insc,fecha_insc,nac_fall,cod_pais,...,area_res,est_civil,niv_inst,residente,causa,lc1,causa103,causa80,causa67A,causa67B
0,4148,09,0901,090110,2019,2,20,2/20/2019,2,862,...,1,2,9,2,V09,57,96,73,60,61
1,25915,17,1701,170155,2019,7,16,7/16/2019,2,862,...,1,2,2,1,B20,7,20,19,1,12
2,3436,17,1701,170130,2019,11,6,11/6/2019,2,862,...,1,2,4,1,X59,88,103,80,60,67
3,26689,17,1701,170130,2019,7,24,7/24/2019,2,862,...,1,2,2,1,I61,42,69,55,30,30
4,74213,09,0901,090110,2019,12,26,12/26/2019,2,862,...,1,2,2,1,I51,41,68,54,30,30
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75350,61269,17,1701,170113,2019,9,9,9/9/2019,2,862,...,1,2,9,1,E11,26,52,46,23,25
75351,23036,09,0901,090110,2019,5,29,5/29/2019,2,862,...,2,4,3,1,C64,21,46,44,16,18
75352,53085,17,1701,170113,2019,11,6,11/6/2019,2,756,...,1,3,9,2,W19,58,97,74,60,67
75353,20833,09,0901,090110,2019,7,1,7/1/2019,2,724,...,1,9,9,1,J44,47,76,61,31,34


Notar que si el DataFrame es grande, por defecto la función `display` (y también `print`) muestran solamente las primera y últimas columnas/filas. Podemos consultar los nombres de todas las columnas en la propiedad `columns`:

In [43]:
print(dfdefunciones.columns)

Index(['Númeración', 'prov_insc', 'cant_insc', 'parr_insc', 'anio_insc',
       'mes_insc', 'dia_insc', 'fecha_insc', 'nac_fall', 'cod_pais', 'sexo',
       'anio_nac', 'mes_nac', 'dia_nac', 'fecha_nac', 'anio_fall', 'mes_fall',
       'dia_fall', 'fecha_fall', 'cod_edad', 'edad', 'prov_res', 'sabe_leer',
       'etnia', 'lugar_ocur', 'prov_fall', 'cant_fall', 'parr_fall',
       'muj_fertil', 'mor_viol', 'lug_viol', 'autopsia', 'causa4', 'cer_por',
       'area_fall', 'area_res', 'est_civil', 'niv_inst', 'residente', 'causa',
       'lc1', 'causa103', 'causa80', 'causa67A', 'causa67B'],
      dtype='object')


El significado de estos campos está documentado en un *diccionario de datos*, disponible en el mismo sitio del INEC. Supongamos que nos interesa solamente la información correspondiente:
* `Númeración` : identificador numérico secuencial
* `fecha_fall` : fecha de fallecimiento
* `mes_fall` : mes de fallecimiento
* `prov_fall` : provincia de fallecimiento
* `cant_fall` : cantón de fallecimiento

Para importar únicamente estos campos, podemos hacer uso del parámetro `usecols`:

In [44]:
dfdefunciones = pd.read_csv('BDD_EDG_2019.csv', sep=';', 
                            usecols = ['Númeración', 'fecha_fall', 'mes_fall', 'prov_fall', 'cant_fall'])
display(dfdefunciones)

Unnamed: 0,Númeración,mes_fall,fecha_fall,prov_fall,cant_fall
0,4148,2,2/12/2019,9,901
1,25915,7,7/14/2019,17,1701
2,3436,11,11/5/2019,17,1701
3,26689,7,7/23/2019,17,1701
4,74213,9,9/30/2019,9,901
...,...,...,...,...,...
75350,61269,9,9/8/2019,17,1701
75351,23036,5,5/29/2019,9,906
75352,53085,11,11/3/2019,5,501
75353,20833,6,6/29/2019,9,901


El campo `Númeración`, al ser un identificador numérico secuencial, es adecuado para ser el índice del DataFrame. Esto puede indicarse con el parámetro `index_col`:

In [45]:
dfdefunciones = pd.read_csv('BDD_EDG_2019.csv', sep=';', 
                            usecols = ['Númeración', 'fecha_fall', 'mes_fall', 'prov_fall', 'cant_fall'],
                           index_col = 'Númeración')
display(dfdefunciones)

Unnamed: 0_level_0,mes_fall,fecha_fall,prov_fall,cant_fall
Númeración,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4148,2,2/12/2019,9,901
25915,7,7/14/2019,17,1701
3436,11,11/5/2019,17,1701
26689,7,7/23/2019,17,1701
74213,9,9/30/2019,9,901
...,...,...,...,...
61269,9,9/8/2019,17,1701
23036,5,5/29/2019,9,906
53085,11,11/3/2019,5,501
20833,6,6/29/2019,9,901


Una vez importados los datos en un DataFrame, es común necesitar cambiar el nombre de las columnas. Esto puede hacerse con el método `rename`, pasando en el parámetro `columns` un diccionario que indique cómo transformar los nombres actuales en nombres nuevos. Por defecto, `rename` trabaja sobre una copia del DataFrame. Este comportamiento puede modificarse, estableciendo el parámetro `inplace` al valor  `True`.

El nombre del índice del DataFrame puede cambiarse fijando la propiedad `index.name`.

In [46]:
# cambiar nombres de columnas
dfdefunciones.rename(columns= {
    'fecha_fall' : 'Fecha', 
    'mes_fall' : 'Mes', 
    'prov_fall' : 'Provincia', 
    'cant_fall' : 'Cantón'}, inplace=True)
# cambiar nombre del índice
dfdefunciones.index.name='No.'
display(dfdefunciones)

Unnamed: 0_level_0,Mes,Fecha,Provincia,Cantón
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4148,2,2/12/2019,9,901
25915,7,7/14/2019,17,1701
3436,11,11/5/2019,17,1701
26689,7,7/23/2019,17,1701
74213,9,9/30/2019,9,901
...,...,...,...,...
61269,9,9/8/2019,17,1701
23036,5,5/29/2019,9,906
53085,11,11/3/2019,5,501
20833,6,6/29/2019,9,901


Una vez terminada la importación, pueden emplearse los métodos y funciones disponibles en la biblioteca `pandas` para procesar y analizar los datos:

In [47]:
# filtrar muertos en septiembre
display(dfdefunciones[dfdefunciones['Mes']==9])
# filtrar muertos en septiembre y en Pichincha
dfsept=dfdefunciones[dfdefunciones['Mes']==9]
display(dfsept[dfsept['Provincia']==17])

Unnamed: 0_level_0,Mes,Fecha,Provincia,Cantón
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
74213,9,9/30/2019,9,901
15313,9,9/2/2019,24,2401
23794,9,9/30/2019,21,2101
51594,9,9/29/2019,4,401
64965,9,9/23/2004,21,2101
...,...,...,...,...
20831,9,9/24/2019,17,1701
1469,9,9/14/2019,7,702
61270,9,9/3/2019,17,1701
63507,9,9/8/2019,9,916


Unnamed: 0_level_0,Mes,Fecha,Provincia,Cantón
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
74383,9,9/25/2019,17,1701
73515,9,9/6/2019,17,1701
73641,9,9/20/2018,17,1701
75263,9,9/28/2019,17,1701
52334,9,9/17/2019,17,1701
...,...,...,...,...
74869,9,9/3/2019,17,1701
74831,9,9/24/2019,17,1703
20831,9,9/24/2019,17,1701
61270,9,9/3/2019,17,1701


Hay muchas más opciones para la importación de archivos CSV que pueden ser configuradas a través de parámetros de la función `read_csv`. Para mayor información, consultar la documentación disponible en el sitio web de `pandas`: <https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv>.

### Ejemplo 2: Importación de un archivo Excel

El [Centro de Modelización Matemática ModeMat](https://modemat.epn.edu.ec/) lleva adelante el proyecto [SalvaVidas](https://covidmodemat.epn.edu.ec) para estudiar y difundir distintos indicadores acerca de la dinámica de propagación de la edpidemia de COVID-19 en Ecuador. Una componente de este proyecto mantiene información actualizada del número de casos y fallecimientos en las distintas parroquias, cantones y provincias del país. Esta información se tabula en libros de Excel y se carga periódicamente en una base de datos.

Vamos a importar los datos del número de casos en el mes de enero de 2021 desde el libro de Excel `condensado_v2.xlsm`. Este libro contiene cuatro hojas, y la información sobre el número de casos está en la hoja llamada `Casos`.

Para importar un libro de Excel en un DataFrame, se utiliza la función `read_excel`. El parámetro `sheet_name` permite especificar el nombre de la hoja a importar.

In [48]:
dfcasos=pd.read_excel('condensado_v2.xlsm', sheet_name='Casos')
display(dfcasos)

Unnamed: 0,PROYECTO SALVAVIDAS - CENTRO DE MODELIZACIÓN MATEMÁTICA MODEMAT,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 28,Unnamed: 29,Unnamed: 30,Unnamed: 31,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37
0,,,,,,,,,,,...,,,,,,,,,,
1,Región,Provincia,Cantón,Parroquia,Cod_Provincia,Cod_Canton,Cod_Parroquia,2021-01-01 00:00:00,2021-01-02 00:00:00,2021-01-03 00:00:00,...,2021-01-22 00:00:00,2021-01-23 00:00:00,2021-01-24 00:00:00,2021-01-25 00:00:00,2021-01-26 00:00:00,2021-01-27 00:00:00,2021-01-28 00:00:00,2021-01-29 00:00:00,2021-01-30 00:00:00,2021-01-31 00:00:00
2,1,Azuay,Camilo Ponce Enríquez,Camilo Ponce Enríquez,1,165,165,193,193,193,...,215,215,215,229,229,229,229,234,235,237
3,1,Azuay,Cuenca,Cuenca,1,1,1,10936,11037,11065,...,12114,12190,12244,12266,12328,12446,12509,12547,12611,12742
4,1,Azuay,Gualaceo,Gualaceo,1,79,79,615,622,622,...,672,680,682,685,685,688,691,693,693,698
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
316,5,Pichincha,Rumiñahui,San Pedro de Taboada,13,52,170553,234,232,232,...,253,253,253,253,254,256,256,256,256,256
317,5,Pichincha,Rumiñahui,San Rafael,13,52,170554,315,315,315,...,375,375,375,375,386,394,394,401,401,401
318,5,Pichincha,Rumiñahui,Sangolquí,13,52,170550,2129,2147,2147,...,2274,2287,2308,2315,2303,2315,2327,2324,2339,2347
319,5,Pichincha,San Miguel de los Bancos,Mindo,13,163,170751,46,46,46,...,55,55,55,55,55,58,58,58,58,58


La importación no se realiza adecuadamente, pues las dos primeras filas de la hoja de Excel no contienen información últil, y los nombres de las columnas aparecen recién en la tercera fila. Para corregir esto, puede especificarse con el parámetro `skiprows` un cierto número de filas a ignorar:

In [49]:
dfcasos=pd.read_excel('condensado_v2.xlsm', sheet_name='Casos', skiprows=2)
display(dfcasos)

Unnamed: 0,Región,Provincia,Cantón,Parroquia,Cod_Provincia,Cod_Canton,Cod_Parroquia,2021-01-01 00:00:00,2021-01-02 00:00:00,2021-01-03 00:00:00,...,2021-01-22 00:00:00,2021-01-23 00:00:00,2021-01-24 00:00:00,2021-01-25 00:00:00,2021-01-26 00:00:00,2021-01-27 00:00:00,2021-01-28 00:00:00,2021-01-29 00:00:00,2021-01-30 00:00:00,2021-01-31 00:00:00
0,1,Azuay,Camilo Ponce Enríquez,Camilo Ponce Enríquez,1,165,165,193.0,193.0,193.0,...,215.0,215.0,215.0,229.0,229.0,229.0,229.0,234.0,235.0,237.0
1,1,Azuay,Cuenca,Cuenca,1,1,1,10936.0,11037.0,11065.0,...,12114.0,12190.0,12244.0,12266.0,12328.0,12446.0,12509.0,12547.0,12611.0,12742.0
2,1,Azuay,Gualaceo,Gualaceo,1,79,79,615.0,622.0,622.0,...,672.0,680.0,682.0,685.0,685.0,688.0,691.0,693.0,693.0,698.0
3,1,Azuay,Santa Isabel,Santa Isabel,1,2,2,300.0,306.0,306.0,...,394.0,399.0,404.0,405.0,405.0,406.0,412.0,416.0,423.0,428.0
4,1,Azuay,El Pan,El Pan,1,192,192,89.0,89.0,89.0,...,92.0,92.0,92.0,93.0,93.0,93.0,93.0,93.0,93.0,93.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
314,5,Pichincha,Rumiñahui,San Pedro de Taboada,13,52,170553,234.0,232.0,232.0,...,253.0,253.0,253.0,253.0,254.0,256.0,256.0,256.0,256.0,256.0
315,5,Pichincha,Rumiñahui,San Rafael,13,52,170554,315.0,315.0,315.0,...,375.0,375.0,375.0,375.0,386.0,394.0,394.0,401.0,401.0,401.0
316,5,Pichincha,Rumiñahui,Sangolquí,13,52,170550,2129.0,2147.0,2147.0,...,2274.0,2287.0,2308.0,2315.0,2303.0,2315.0,2327.0,2324.0,2339.0,2347.0
317,5,Pichincha,San Miguel de los Bancos,Mindo,13,163,170751,46.0,46.0,46.0,...,55.0,55.0,55.0,55.0,55.0,58.0,58.0,58.0,58.0,58.0


Al igual que para el caso de archivos CSV, puede especificarse con el parámetro `usecols` cuáles columnas se desea importar. Es posible asignar a `usecols` una cadena de caracteres con los nombres de Excel de las columnas, separados por comas (puede usarse también el operador de rango `:`).

In [50]:
# importar únicamente las columnas A:D, G y H:L
dfcasos=pd.read_excel('condensado_v2.xlsm', sheet_name='Casos', skiprows=2, usecols='A:D,G,H:AL')
display(dfcasos)

Unnamed: 0,Región,Provincia,Cantón,Parroquia,Cod_Parroquia,2021-01-01 00:00:00,2021-01-02 00:00:00,2021-01-03 00:00:00,2021-01-04 00:00:00,2021-01-05 00:00:00,...,2021-01-22 00:00:00,2021-01-23 00:00:00,2021-01-24 00:00:00,2021-01-25 00:00:00,2021-01-26 00:00:00,2021-01-27 00:00:00,2021-01-28 00:00:00,2021-01-29 00:00:00,2021-01-30 00:00:00,2021-01-31 00:00:00
0,1,Azuay,Camilo Ponce Enríquez,Camilo Ponce Enríquez,165,193.0,193.0,193.0,193.0,193.0,...,215.0,215.0,215.0,229.0,229.0,229.0,229.0,234.0,235.0,237.0
1,1,Azuay,Cuenca,Cuenca,1,10936.0,11037.0,11065.0,11088.0,11136.0,...,12114.0,12190.0,12244.0,12266.0,12328.0,12446.0,12509.0,12547.0,12611.0,12742.0
2,1,Azuay,Gualaceo,Gualaceo,79,615.0,622.0,622.0,623.0,625.0,...,672.0,680.0,682.0,685.0,685.0,688.0,691.0,693.0,693.0,698.0
3,1,Azuay,Santa Isabel,Santa Isabel,2,300.0,306.0,306.0,306.0,306.0,...,394.0,399.0,404.0,405.0,405.0,406.0,412.0,416.0,423.0,428.0
4,1,Azuay,El Pan,El Pan,192,89.0,89.0,89.0,89.0,89.0,...,92.0,92.0,92.0,93.0,93.0,93.0,93.0,93.0,93.0,93.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
314,5,Pichincha,Rumiñahui,San Pedro de Taboada,170553,234.0,232.0,232.0,237.0,237.0,...,253.0,253.0,253.0,253.0,254.0,256.0,256.0,256.0,256.0,256.0
315,5,Pichincha,Rumiñahui,San Rafael,170554,315.0,315.0,315.0,319.0,319.0,...,375.0,375.0,375.0,375.0,386.0,394.0,394.0,401.0,401.0,401.0
316,5,Pichincha,Rumiñahui,Sangolquí,170550,2129.0,2147.0,2147.0,2137.0,2155.0,...,2274.0,2287.0,2308.0,2315.0,2303.0,2315.0,2327.0,2324.0,2339.0,2347.0
317,5,Pichincha,San Miguel de los Bancos,Mindo,170751,46.0,46.0,46.0,46.0,46.0,...,55.0,55.0,55.0,55.0,55.0,58.0,58.0,58.0,58.0,58.0


Si se desea fijar a una de las columnas como índice del DataFrame, puede emplearse el parámetro `index_col`:

In [51]:
# Fijar al código de parroquia como índice del DataFrame
dfcasos=pd.read_excel('condensado_v2.xlsm', sheet_name='Casos', skiprows=2, 
                      usecols='A:D,G,H:AL', index_col='Cod_Parroquia')
display(dfcasos)

Unnamed: 0_level_0,Región,Provincia,Cantón,Parroquia,2021-01-01 00:00:00,2021-01-02 00:00:00,2021-01-03 00:00:00,2021-01-04 00:00:00,2021-01-05 00:00:00,2021-01-06 00:00:00,...,2021-01-22 00:00:00,2021-01-23 00:00:00,2021-01-24 00:00:00,2021-01-25 00:00:00,2021-01-26 00:00:00,2021-01-27 00:00:00,2021-01-28 00:00:00,2021-01-29 00:00:00,2021-01-30 00:00:00,2021-01-31 00:00:00
Cod_Parroquia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
165,1,Azuay,Camilo Ponce Enríquez,Camilo Ponce Enríquez,193.0,193.0,193.0,193.0,193.0,194.0,...,215.0,215.0,215.0,229.0,229.0,229.0,229.0,234.0,235.0,237.0
1,1,Azuay,Cuenca,Cuenca,10936.0,11037.0,11065.0,11088.0,11136.0,11199.0,...,12114.0,12190.0,12244.0,12266.0,12328.0,12446.0,12509.0,12547.0,12611.0,12742.0
79,1,Azuay,Gualaceo,Gualaceo,615.0,622.0,622.0,623.0,625.0,631.0,...,672.0,680.0,682.0,685.0,685.0,688.0,691.0,693.0,693.0,698.0
2,1,Azuay,Santa Isabel,Santa Isabel,300.0,306.0,306.0,306.0,306.0,316.0,...,394.0,399.0,404.0,405.0,405.0,406.0,412.0,416.0,423.0,428.0
192,1,Azuay,El Pan,El Pan,89.0,89.0,89.0,89.0,89.0,89.0,...,92.0,92.0,92.0,93.0,93.0,93.0,93.0,93.0,93.0,93.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
170553,5,Pichincha,Rumiñahui,San Pedro de Taboada,234.0,232.0,232.0,237.0,237.0,238.0,...,253.0,253.0,253.0,253.0,254.0,256.0,256.0,256.0,256.0,256.0
170554,5,Pichincha,Rumiñahui,San Rafael,315.0,315.0,315.0,319.0,319.0,328.0,...,375.0,375.0,375.0,375.0,386.0,394.0,394.0,401.0,401.0,401.0
170550,5,Pichincha,Rumiñahui,Sangolquí,2129.0,2147.0,2147.0,2137.0,2155.0,2160.0,...,2274.0,2287.0,2308.0,2315.0,2303.0,2315.0,2327.0,2324.0,2339.0,2347.0
170751,5,Pichincha,San Miguel de los Bancos,Mindo,46.0,46.0,46.0,46.0,46.0,46.0,...,55.0,55.0,55.0,55.0,55.0,58.0,58.0,58.0,58.0,58.0


Una vez importado el DataFrame, las funciones de la biblioteca `pandas` se utilizan para procesar y analizar la información:

In [52]:
from datetime import datetime
# Filtrar casos de las parroquias de Quito
display(dfcasos[dfcasos['Cantón']=='Quito'])

# Construir una serie con los casos del 1ro de enero
# (en este caso los nombres de las columnas son del tipo datetime)
print(dfcasos[datetime(2021,1,1)])

# Sumar los casos en Quito el 31 de enero
dfquito = dfcasos[dfcasos['Cantón']=='Quito']
print('Casos al 31 de enero en Quito: {}'.format(int(dfquito[datetime(2021,1,31)].sum())))

Unnamed: 0_level_0,Región,Provincia,Cantón,Parroquia,2021-01-01 00:00:00,2021-01-02 00:00:00,2021-01-03 00:00:00,2021-01-04 00:00:00,2021-01-05 00:00:00,2021-01-06 00:00:00,...,2021-01-22 00:00:00,2021-01-23 00:00:00,2021-01-24 00:00:00,2021-01-25 00:00:00,2021-01-26 00:00:00,2021-01-27 00:00:00,2021-01-28 00:00:00,2021-01-29 00:00:00,2021-01-30 00:00:00,2021-01-31 00:00:00
Cod_Parroquia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
39,1,Pichincha,Quito,Quito,,,,,,,...,,,,,,,,,,
170151,5,Pichincha,Quito,Alangasí,615.0,622.0,622.0,622.0,626.0,627.0,...,653.0,656.0,664.0,664.0,659.0,659.0,667.0,671.0,681.0,682.0
170152,5,Pichincha,Quito,Amaguaña,606.0,608.0,608.0,606.0,609.0,612.0,...,567.0,569.0,576.0,576.0,650.0,653.0,661.0,667.0,677.0,678.0
170153,5,Pichincha,Quito,Atahualpa (Habaspamba),69.0,70.0,70.0,69.0,69.0,71.0,...,154.0,155.0,157.0,157.0,78.0,78.0,79.0,85.0,86.0,86.0
170101,5,Pichincha,Quito,Belisario Quevedo,2638.0,2647.0,2648.0,2651.0,2666.0,2667.0,...,2819.0,2831.0,2867.0,2868.0,2874.0,2889.0,2925.0,2920.0,2963.0,2966.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
170183,5,Pichincha,Quito,Tababela,97.0,97.0,97.0,97.0,98.0,100.0,...,104.0,104.0,105.0,105.0,107.0,107.0,108.0,117.0,119.0,119.0
170184,5,Pichincha,Quito,Tumbaco,1177.0,1187.0,1187.0,1184.0,1191.0,1194.0,...,1272.0,1277.0,1293.0,1293.0,1290.0,1306.0,1322.0,1325.0,1344.0,1345.0
170132,5,Pichincha,Quito,Turubamba,773.0,777.0,777.0,776.0,780.0,778.0,...,820.0,823.0,834.0,834.0,834.0,840.0,850.0,862.0,875.0,876.0
170185,5,Pichincha,Quito,Yaruquí,341.0,346.0,346.0,343.0,345.0,347.0,...,367.0,369.0,374.0,374.0,375.0,377.0,382.0,394.0,400.0,400.0


Cod_Parroquia
165         193.0
1         10936.0
79          615.0
2           300.0
192          89.0
           ...   
170553      234.0
170554      315.0
170550     2129.0
170751       46.0
170750      147.0
Name: 2021-01-01 00:00:00, Length: 319, dtype: float64
Casos al 31 de enero en Quito: 80919


Más información sobre las opciones de importación de archivos de Excel está disponible en la documentación del sitio web de `pandas`: <https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html>.