# Uso de archivos Excel
- Abrir archivos en Excel
- Generar archivos en Excel desde estructuras

In [12]:
# Se usará el archivo netflix_movies.xlsx
# Se usa la librería openpyxl
# https://www.python-excel.org/
# https://openpyxl.readthedocs.io/en/latest/tutorial.html
import openpyxl
from pathlib import Path

xlsx_file = Path('.', 'netflix_titles.xlsx')
wb_obj = openpyxl.load_workbook(xlsx_file)

# Read the active sheet
sheet = wb_obj.active

# Se imprime el primer título
print(sheet["C3"].value)

Blood & Water


In [3]:
# Rangos
cell_range = sheet["A1":"D50"]
print(cell_range)

((<Cell 'Worksheet'.A1>, <Cell 'Worksheet'.B1>, <Cell 'Worksheet'.C1>, <Cell 'Worksheet'.D1>), (<Cell 'Worksheet'.A2>, <Cell 'Worksheet'.B2>, <Cell 'Worksheet'.C2>, <Cell 'Worksheet'.D2>), (<Cell 'Worksheet'.A3>, <Cell 'Worksheet'.B3>, <Cell 'Worksheet'.C3>, <Cell 'Worksheet'.D3>), (<Cell 'Worksheet'.A4>, <Cell 'Worksheet'.B4>, <Cell 'Worksheet'.C4>, <Cell 'Worksheet'.D4>), (<Cell 'Worksheet'.A5>, <Cell 'Worksheet'.B5>, <Cell 'Worksheet'.C5>, <Cell 'Worksheet'.D5>), (<Cell 'Worksheet'.A6>, <Cell 'Worksheet'.B6>, <Cell 'Worksheet'.C6>, <Cell 'Worksheet'.D6>), (<Cell 'Worksheet'.A7>, <Cell 'Worksheet'.B7>, <Cell 'Worksheet'.C7>, <Cell 'Worksheet'.D7>), (<Cell 'Worksheet'.A8>, <Cell 'Worksheet'.B8>, <Cell 'Worksheet'.C8>, <Cell 'Worksheet'.D8>), (<Cell 'Worksheet'.A9>, <Cell 'Worksheet'.B9>, <Cell 'Worksheet'.C9>, <Cell 'Worksheet'.D9>), (<Cell 'Worksheet'.A10>, <Cell 'Worksheet'.B10>, <Cell 'Worksheet'.C10>, <Cell 'Worksheet'.D10>), (<Cell 'Worksheet'.A11>, <Cell 'Worksheet'.B11>, <Cell 

In [4]:
# Obtener valores de un rango
for row in sheet.iter_rows(min_row=1, max_col=4, max_row=50, values_only=True): print(row)

('show_id', 'type', 'title', 'director')
('s1', 'Movie', 'Dick Johnson Is Dead', 'Kirsten Johnson')
('s2', 'TV Show', 'Blood & Water', None)
('s3', 'TV Show', 'Ganglands', 'Julien Leclercq')
('s4', 'TV Show', 'Jailbirds New Orleans', None)
('s5', 'TV Show', 'Kota Factory', None)
('s6', 'TV Show', 'Midnight Mass', 'Mike Flanagan')
('s7', 'Movie', 'My Little Pony: A New Generation', 'Robert Cullen, José Luis Ucha')
('s8', 'Movie', 'Sankofa', 'Haile Gerima')
('s9', 'TV Show', 'The Great British Baking Show', 'Andy Devonshire')
('s10', 'Movie', 'The Starling', 'Theodore Melfi')
('s11', 'TV Show', 'Vendetta: Truth, Lies and The Mafia', None)
('s12', 'TV Show', 'Bangkok Breaking', 'Kongkiat Komesiri')
('s13', 'Movie', 'Je Suis Karl', 'Christian Schwochow')
('s14', 'Movie', 'Confessions of an Invisible Girl', 'Bruno Garotti')
('s15', 'TV Show', 'Crime Stories: India Detectives', None)
('s16', 'TV Show', 'Dear White People', None)
('s17', 'Movie', "Europe's Most Dangerous Man: Otto Skorzeny in

In [7]:
# Asignar un valor
valor = sheet["D2"]
print(valor)

<Cell 'Worksheet'.D2>


In [8]:
valor.value = 10000
valor = sheet["D2"]
print(valor.value)

10000


In [9]:
# Puedo generar una nueva hoja
ws1 = wb_obj.create_sheet("Ejemplo")

# Más métodos
for sheet in wb_obj: print(sheet.title)

Worksheet
Ejemplo


In [10]:
print(sheet["C2"].value)

None


In [13]:
# Verificación en Excel
# Se imprimen las primeras 5 líneas
for row in sheet.iter_rows(max_row=6):
    for cell in row: print(cell.value, end=" ")
    print()

show_id type title director cast country date_added release_year rating duration listed_in description 
s1 Movie Dick Johnson Is Dead Kirsten Johnson None United States September 25, 2021 2020 PG-13 90 min Documentaries As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable. 
s2 TV Show Blood & Water None Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng South Africa September 24, 2021 2021 TV-MA 2 Seasons International TV Shows, TV Dramas, TV Mysteries After crossing paths at a party, a Cape Town teen sets out to prove whether a private-school swimming star is her sister who was abducted at birth. 
s3 TV Show Ganglands Julien Leclercq Sami 

In [14]:
# Se imprime el tamaño de la hoja abierta en filas y columnas
print(sheet.max_row, sheet.max_column)

8808 12


In [15]:
# Se puede además generar un diccionario con las columnas
col_names = []
for column in sheet.iter_cols(1, sheet.max_column): col_names.append(column[0].value)
col_names

['show_id',
 'type',
 'title',
 'director',
 'cast',
 'country',
 'date_added',
 'release_year',
 'rating',
 'duration',
 'listed_in',
 'description']

# Escribiendo un archivo Excel
- A partir de un diccionario, se genera un archivo de Excel.
- Si es que no se tiene la librería se debería instalar "openpyxl".
- Existen muchas librerías diferentes de manejo de archivos Excel, se debe escoger la que mejor se adapte a las necesidades.

In [20]:
# import openpyxl module
import openpyxl

# Call a Workbook() function of openpyxl
# to create a new blank Workbook object
wb = openpyxl.Workbook()

# Get workbook active sheet
# from the active attribute
sheet = wb.active

# Cell objects also have row, column
# and coordinate attributes that provide
# location information for the cell.

# Note: The first row or column integer
# is 1, not 0. Cell object is created by
# using sheet object's cell() method.
c1 = sheet.cell(row=1, column=1)

# writing values to cells
c1.value = "Esta es una prueba"

c2 = sheet.cell(row=1, column=2)
c2.value = "con Python y Excel"

# Once have a Worksheet object, one can
# access a cell object by its name also.
# A2 means column = 1 & row = 2.
c3 = sheet["A2"]
c3.value = "para escribir"

# B2 means column = 2 & row = 2.
c4 = sheet["B2"]
c4.value = "contenido."

# Anytime you modify the Workbook object
# or its sheets and cells, the spreadsheet
# file will not be saved until you call
# the save() workbook method.
wb.save("prueba2.xlsx")

In [21]:
# Ejemplo para escribir un diccionario a un archivo Excel
import xlsxwriter

workbook = xlsxwriter.Workbook('data.xlsx')
worksheet = workbook.add_worksheet()

# Código anterior de JSON

# Se importa la librería general de json
# Se hizo un download del archivo "EmployeeData.json" desde https://www.appsloveworld.com/download-sample-json-file-with-multiple-records/
# Los archivos json pueden descargarse de cientos de fuentes, además de producirse como forma de intercambio de
# información entre aplicaciones y sitios
import json
import csv
# Abre el archivo de lectura
file = open(r'./netflix_titles.csv')

# Lee el archivo en el objeto csvreader
csvreader = csv.reader(file)

header = []
header = next(csvreader)

# Extrae los datos a una lista
rows = []
for row in csvreader: rows.append(row)
    
# Para trabajar con filas y columnas, podemos usar numpy

# Importamos la función numpy
# https://numpy.org/doc/
import numpy as np
movies = np.array(rows)

# Se recuerda que la variables movies es del tipo nparray (todos los ítems son del mismo tipo)
# se la debe convertir a un dictionary
# Se usa enumerate para hacer la transformación

movies_dict = dict(enumerate(movies.flatten(), 1))

# Se usa dumps de la librería json para pasar la salida a formato json
movies_json = json.dumps(movies_dict, indent=4)

# Primero se convierte el header a un array
movie_header = np.array(header)

# Convierte el array de listas en un array junto
flat_movies = [item for sublist in rows for item in sublist]

# Combina los headers con cada fila
# Ref: https://stackoverflow.com/questions/55789565/how-to-make-a-json-from-two-lists-in-python
# Ref2:
len_headers = len(header)
len_data = len(flat_movies)
num_movies = int(len_data / len_headers)
flat_header = header * num_movies # Python permite la multiplicación de listas

# Se puede generar una lista de diccionarios, como la que se ve a continuación, con las primeras 3 películas
final_list = []
header_length = len(flat_header) # No. of columns
_splitted_dict_list = [{k: v} for k, v in zip(flat_header, flat_movies)]
for v in range(0, 3*len_headers, 1): # Primeras 3 películas
    final_list.append({nk:nv for nested_dict in _splitted_dict_list[v:v+1] for nk, nv in nested_dict.items()})

# Ahora bien, lo que nos sirve a nosotros es generar un diccionario
# para poder encontrar rápidamente una película o un valor

from itertools import cycle
result = {}
for key, val in zip(cycle(header), flat_movies):
    if key not in result:
        result[key] = []
    result[key].append(val)

    
# Código actual

d = result
row = 0
col = 0

for key in d.keys():
    row += 1
    worksheet.write(row, col, key)
    for item in d[key]:
        worksheet.write(row, col + 1, item)
        row += 1

workbook.close()

# Wrap up
- Uso de archivos CSV, JSON y Excel.
- Se abren archivos, se utilizan estructuras para usar su data, y se pueden escribir además.
- Manejo de listas y diccionarios.
- Estas estructuras se pueden intercalar, es decir, se podría abrir un archivo JSON para luego escribirlo en Excel y viceversa.
- Es ahí donde está el verdadero poder de Python y el análisis de datos hecho de esa manera.