# Ejemplo práctico: fusionar datos de diferentes ficheros excel en uno

Al trabajar con datos puede darse la situación de que necesitemos unificar datos de diferentes bases o simplemente generar una nueva base con determinados datos de diferentes ficheros excel. En este documento se explica el procedimiento para poder automatizar esta tarea.

Las dos siguientes celdas deben ser ejecutadas si los paquetes `xlrd` y `openpyxl` no están instalados. En caso contrario se omiten.

In [None]:
pip install xlrd

In [None]:
pip install openpyxl

Antes de nada hay que importar los paquetes necesarios para trabajar con ficheros excel.

In [1]:
import xlrd
from openpyxl import Workbook
from os import listdir

El primer paso es identificar todas las bases de datos que queremos fusionar. El siguiente fragmento de código recopila todos los ficheros excel (sólo `xlsx`) que se encuentren en la misma ubicación que este Notebook y no se llamen `output.xlsx`.

En el siguiente fragmento de código se utilizan el método listdir() y las comprehensiones de lista:
* Sobre el [método `listdir` y el paquete `os`](https://docs.python.org/3.8/library/os.html?highlight=os#os.listdir)
* Sobre las [comprehensiones de lista](https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions).

In [2]:
files = [file for file in listdir() if file != 'output.xlsx' and file[-5:] == '.xlsx']
print(files)

['database_1.xlsx', 'database_2.xlsx', 'database_3.xlsx']


In [3]:
"""
Este fragmento de código tiene el mismo resultado que el de la celda anterior.
Es una muestra de cómo se puede articular un mismo bucle en forma de comprehensión y de forma normal.
"""
files = []

for file in listdir():
    if file != 'output.xlsx' and file[-5:] == '.xlsx':
        files.append(file)
        
print(files)

['database_1.xlsx', 'database_2.xlsx', 'database_3.xlsx']


De las siguientes tres celdas de código **sólo debe ejecutarse una**, ya que cumplen la misma función: seleccionar y extraer contenido de las bases de datos. La diferencia entre los tres fragmentos de código es qué información recoge cada uno. El primero únicamente selecciona la segunda fila de cada fichero excel. Este contenido, de cada fichero, es el que se escribirá en la base de datos unificada.

En las siguientes celdas se usan los módulos `xlrd` y la clase `Workbook` de la clase `openpyxl`:
* Sobre el [módulo xlrd](https://xlrd.readthedocs.io/en/latest/api.html#xlrd-sheet)
* Sobre la [clase `Workbook` del paquete `openpyxl`](https://openpyxl.readthedocs.io/en/stable/api/openpyxl.workbook.workbook.html).

In [None]:
content = []

for file in files:
    wb = xlrd.open_workbook(file) 
    sheet = wb.sheet_by_index(0)
    
    # Seleccionamos la segunda fila, puesto que la primera son los nombres de las variables
    content += [sheet.row_values(1)]
    
print(content)

El siguiente fragmento es un ejemplo en el que únicamente se selecciona la celda situada en la columna 0 y la fila 0 de cada fichero excel.

In [4]:
content = []

for file in files:
    wb = xlrd.open_workbook(file) 
    sheet = wb.sheet_by_index(0)
    
    # Seleccionamos la celda situada en la columna 0 y la fila 0
    content.append([sheet.cell_value(0, 0)])
    
print(content)

[['var_1'], ['var_1'], ['var_1']]


El siguiente fragmento es un ejemplo en el que únicamente se selecciona la segunda columna, excluyendo la primera fila para no incluir el nombre de la variable.

In [None]:
content = []

for file in files:
    wb = xlrd.open_workbook(file) 
    sheet = wb.sheet_by_index(0)
    
    # Seleccionamos la segunda columna sin el primer valor, puesto que es el nombre de la columna
    content += [[value] for value in sheet.col_values(1)[1:]]

print(content)

Una vez hemos seleccionado el contenido que queremos extraer de cada fichero, lo unificamos con el siguiente código y lo guardamos con el nombre `'output.xlsx'`.

In [None]:
wb = Workbook()
ws = wb.active

for line in content:
    ws.append(line)
    
wb.save('output.xlsx')

if 'output.xlsx' in listdir():
    print('La nueva base de datos se ha creado correctamente.')