![rmotr](https://user-images.githubusercontent.com/7065401/52071918-bda15380-2562-11e9-828c-7f95297e4a82.png)
<hr style="margin-bottom: 40px;">

<img src="https://user-images.githubusercontent.com/7065401/68501079-0695df00-023c-11ea-841f-455dac84a089.jpg"
    style="width:400px; float: right; margin: 0 40px 40px 40px;"></img>


# Lectura de archivos de Excel

En esta lección, aprenderemos a leer archivos de Excel (.xlsx) y sus hojas en un `DataFrame` de pandas, y a exportar ese `DataFrame` a diferentes hojas y archivos de Excel utilizando los métodos `ExcelWriter` y `to_excel` de pandas.

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)


## ¡Manos a la obra!

In [None]:
import pandas as pd

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## El método `read_excel`

Comenzaremos con el método **read_excel**, que nos permite leer archivos Excel en un `DataFrame`.

Este método admite extensiones de archivo XLS y XLSX desde un sistema de archivos local o URL y tiene un amplio conjunto de parámetros para configurar cómo se leerán y analizarán los datos. Estos parámetros son muy similares a los parámetros que vimos en lecciones anteriores donde presentamos el método `read_csv`. Los parámetros más comunes son los siguientes:

- `filepath`: Ruta del archivo que se leerá.
- `sheet_name`: Se utilizan cadenas para los nombres de las hojas. Se utilizan números enteros en posiciones de hoja indexadas a cero. Se utilizan listas de cadenas/números enteros para solicitar varias hojas. Especifique None para obtener todas las hojas.
- `header`: Índice de la fila que contiene los nombres de las columnas (None si no hay ninguna).
- `index_col`: Índice de la columna o secuencia de índices que se debe utilizar como índice de filas de los datos.
- `names`: Secuencia que contiene los nombres de las columnas (se usa junto con header = None).
- `skiprows`: Número de filas o secuencia de índices de filas a ignorar en la carga.
- `na_values`: Secuencia de valores que, si se encuentran en el archivo, deben tratarse como NaN.
- `dtype`: Diccionario en el que las claves serán nombres de columnas y los valores serán tipos de NumPy a los que se debe convertir su contenido.
- `parse_dates`: Bandera que indica si Python debe intentar analizar datos con un formato similar a fechas como fechas. Puede ingresar una lista de nombres de columnas que deben unirse para el análisis como una fecha.
- `date_parser`: Función a usar para intentar analizar fechas.
- `nrows`: Número de filas a leer desde el principio del archivo.
- `skip_footer`: Número de filas a ignorar al final del archivo.
- `squeeze`: Indicador que indica que si los datos leídos solo contienen una columna, el resultado es una Serie en lugar de un DataFrame.
- `thousands`: Carácter a utilizar para detectar el separador de miles.

> La documentación completa de `read_excel` se puede encontrar aquí: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html.

En este caso intentaremos leer nuestro archivo Excel `products.xlsx`.

Este archivo contiene registros de productos con su precio, marca, descripción e información del comerciante en diferentes hojas.

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)


## Leyendo nuestro primer archivo de Excel

Cada vez que llamamos al método `read_excel`, necesitaremos pasar un parámetro `filepath` explícito que indique la ruta donde se encuentra nuestro archivo de Excel.

Se acepta cualquier ruta de cadena válida. La cadena puede ser una URL. Los esquemas de URL válidos incluyen HTTP, FTP, S3 y archivo. Para las URL de archivo, se espera un host. Un archivo local podría ser: `file://localhost/path/to/table.xlsx`.

In [None]:
df = pd.read_excel("products.xlsx")

In [None]:
df.head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


En este caso, dejamos que Pandas infiera todo lo relacionado con nuestros datos, pero en la mayoría de los casos necesitaremos indicarle explícitamente a Pandas cómo queremos que se carguen nuestros datos. Para ello, utilizamos parámetros.

Veamos cómo funcionan estos parámetros.

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Comportamiento de la primera fila con el parámetro `header`

El archivo de Excel que estamos leyendo tiene las siguientes columnas:

- `product_id`
- `price`
- `merchant_id`
- `brand`
- `name`

La primera fila (índice 0) de los datos tiene los nombres de las columnas, por lo que mantenemos el parámetro `header=0` implícito para permitir que Pandas asigne esta primera fila como encabezado. Podemos sobrescribir este comportamiento definiendo explícitamente el parámetro `header`.


In [None]:
pd.read_excel("products.xlsx").head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


In [None]:
pd.read_excel("products.xlsx", header=0).head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Agregar un índice a nuestros datos usando el parámetro `index_col`

De manera predeterminada, pandas asignará automáticamente un índice numérico autoincremental o una etiqueta de fila que comience con cero.

Es posible que desee dejar el índice predeterminado como tal si sus datos no tienen una columna con valores únicos que puedan servir como un mejor índice.

En caso de que haya una columna que crea que serviría como un mejor índice, puede anular el comportamiento predeterminado configurando la propiedad `index_col` en una columna. Toma un valor numérico o una cadena para configurar una sola columna como índice o una lista de valores numéricos para crear un índice múltiple.

En nuestros datos, estamos eligiendo la primera columna, `product_id`, como índice (index=0) al pasar cero al argumento `index_col`.



In [None]:
df = pd.read_excel("products.xlsx", index_col=0)

In [None]:
df.head()

Unnamed: 0_level_0,price,merchant_id,brand,name
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Selección de hojas específicas

Los archivos de Excel suelen tener varias hojas y la capacidad de leer una hoja específica o todas ellas es muy importante. Para facilitar esto, el método `read_excel` de pandas toma un argumento llamado `sheet_name` que le indica a pandas de qué hoja leer los datos.

Para esto, puede utilizar el nombre de la hoja o el número de la hoja. Los números de hoja comienzan con cero. La primera hoja será la que se cargue de forma predeterminada. Puede cambiar de hoja especificando el parámetro `sheet_name`.


In [None]:
products = pd.read_excel("products.xlsx", sheet_name="Products", index_col='product_id')

In [None]:
products.head()

Unnamed: 0_level_0,price,merchant_id,brand,name
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


In [None]:
merchants = pd.read_excel("products.xlsx", sheet_name="Merchants", index_col='merchant_id')

In [None]:
merchants.head()

Unnamed: 0_level_0,merchant
merchant_id,Unnamed: 1_level_1
1001,Bestbuy.com
1002,Walmart.com
1003,Bestbuy.com
1004,Growkart
1005,bhphotovideo.com


![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## La clase `ExcelFile`

Otro método para leer datos de Excel es usar la clase `ExcelFile` para analizar hojas de cálculo de Excel tabulares en objetos `DataFrame`.

Esta clase `ExcelFile` nos permitirá trabajar con hojas de cálculo fácilmente y será más rápida que el método `read_excel` anterior.

In [None]:
excel_file = pd.ExcelFile("products.xlsx")

Ahora podemos explorar las hojas de ese archivo Excel con `sheet_names`:

In [None]:
excel_file.sheet_names

['Products', 'Descriptions', 'Merchants']

Y analiza las hojas especificadas en un `DataFrame` de Pandas usando el método `parse()` de ExcelFile.

Cada vez que llamamos al método `parse()`, necesitaremos pasar un parámetro `sheet_name` explícito que indique qué hoja del archivo Excel queremos que se analice. La primera hoja se analizará de forma predeterminada.

In [None]:
products = excel_file.parse("Products")

In [None]:
products.head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


Este método `parse()` tiene todos los parámetros que vimos antes en el método `read_excel()`, probemos algunos de ellos:

In [None]:
products = excel_file.parse(sheet_name="Products", header=0, index_col='product_id')

In [None]:
products.head()

Unnamed: 0_level_0,price,merchant_id,brand,name
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


In [None]:
products.dtypes

Unnamed: 0,0
price,float64
merchant_id,int64
brand,object
name,object


In [None]:
merchants = excel_file.parse("Merchants", index_col='merchant_id')

In [None]:
merchants.head()


Unnamed: 0_level_0,merchant
merchant_id,Unnamed: 1_level_1
1001,Bestbuy.com
1002,Walmart.com
1003,Bestbuy.com
1004,Growkart
1005,bhphotovideo.com


In [None]:
merchants.dtypes

Unnamed: 0,0
merchant,object


![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Guardar en archivo Excel

Por último, podemos guardar nuestro `DataFrame` como un archivo Excel.


In [None]:
products.head()

Unnamed: 0_level_0,price,merchant_id,brand,name
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


Una forma rápida y sencilla de escribir un único `DataFrame` en un archivo Excel es usar el método `to_excel()` del `DataFrame` directamente.

Tenga en cuenta que es necesario pasar una ruta de archivo de salida.

> La biblioteca `OpenPyXL - openpyxl` debe estar instalada para guardar archivos Excel. `pip install openpyxl`

In [None]:
products.to_excel("producción.xlsx")

In [None]:
pd.read_excel("producción.xlsx").head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


Podemos especificar el nombre de la hoja con el parámetro `sheet_name`:

In [None]:
products.to_excel("producción.xlsx", sheet_name="Productos")

Las llamadas posteriores a `to_excel` con nombres de hojas diferentes solo sobrescribirán la primera hoja en lugar de agregar hojas adicionales.

Además, tenga en cuenta que al eliminar el índice, perderemos esa columna.

In [None]:
products.to_excel("producción.xlsx", index=None)

In [None]:
pd.read_excel("producción.xlsx").head()

Unnamed: 0,price,merchant_id,brand,name
0,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Posicionamiento de datos con `startrow` y `startcol`

Supongamos que queremos insertar nuestros datos en el archivo de hoja de cálculo en una posición distinta a la esquina superior izquierda.

Podemos cambiar el lugar donde el método `to_excel` escribe los datos utilizando `startrow` para establecer la celda después de la cual se imprimirá la primera fila y `startcol` para establecer la celda después de la cual se imprimirá la primera columna.

<img src="https://user-images.githubusercontent.com/7065401/68594890-41378b80-0477-11ea-9ae4-ff87e5e1128d.png" />


In [None]:
products.to_excel("producción.xlsx", sheet_name="Productos", startrow=1, startcol=2)

<img src="https://user-images.githubusercontent.com/7065401/68594828-249b5380-0477-11ea-87d7-af694c09f2d2.png" />


![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Guardar varias hojas

Si queremos escribir un único `DataFrame` en una única hoja con formato predeterminado, ya hemos terminado. Sin embargo, si queremos escribir varias hojas o varios `DataFrame`, tendremos que crear un objeto `ExcelWriter`.

El objeto `ExcelWriter` está incluido en el módulo Pandas y se utiliza para abrir archivos de Excel y gestionar operaciones de escritura. Este objeto se comporta casi exactamente como el objeto `open` de Python que utilizamos en cursos anteriores y se puede utilizar dentro de un bloque `with`.

> Cuando se ejecuta el objeto `ExcelWriter`, se sobrescribirá cualquier archivo existente con el mismo nombre que el archivo de salida.

In [None]:
from os import write
writer = pd.ExcelWriter("producción.xlsx")

In [None]:
writer

<pandas.io.excel._openpyxl.OpenpyxlWriter at 0x7f5574e6c970>

En lugar de incluir la ruta del archivo en la llamada `to_excel`, utilizaremos el objeto `ExcelWriter` `writer` en su lugar.

In [None]:
with writer:
    products.to_excel(writer, sheet_name="Productos")

In [None]:
pd.read_excel("producción.xlsx", sheet_name="Productos").head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


Ahora podemos agregar otra hoja `Comerciantes` simplemente usando el objeto `escritor`:

In [None]:
!pip install openpyxl
import pandas as pd

# Assuming 'merchants' is your DataFrame
with pd.ExcelWriter("producción.xlsx") as writer:
    merchants.to_excel(writer, sheet_name="Comerciantes")
    # Add other DataFrames to the same Excel file if needed



In [None]:
pd.read_excel("producción.xlsx", sheet_name="Comerciantes").head()

Unnamed: 0,merchant_id,merchant
0,1001,Bestbuy.com
1,1002,Walmart.com
2,1003,Bestbuy.com
3,1004,Growkart
4,1005,bhphotovideo.com


O podemos guardar varias hojas al mismo tiempo:

In [None]:
with pd.ExcelWriter("producción.xlsx") as writer:
    products.to_excel(writer, sheet_name="Productos")
    merchants.to_excel(writer, sheet_name="Comerciantes")

En ese caso, el archivo `out.xlxs` resultante tendrá dos hojas `Productos` y `Comerciantes`.

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)
