# Seminario de Lenguajes - Python
## Procesamiento de hojas de cálculo

# ¿Qué características tienen estos archivos?

Según la Wikipedia ...
> Una hoja de cálculo es un tipo de documento que permite manipular datos numéricos y alfanuméricos dispuestos en forma de tablas compuestas por celdas, las cuales se suelen organizar en una matriz de filas y columnas.

El programa más popular para manipular estos archivos es Microsoft Excel

# DESAFIO  1

> Tenenemos los datos de afluencia de turistas en la provincia de Córdoba y queremos saber cuántos turistas concurrieron entre los meses de enero y febrero.

Los datos fueron obtenidos del [Portal de datos abiertos de la provincia](https://gobiernoabierto.cordoba.gob.ar/data/datos-abiertos/categoria/turismo/afluencia-turistica-en-hoteles-apart-hoteles-y-hostales/138)

Como se puede ver, los datos están en varios formatos, pero no en un único dataset.

Para nuestro ejemplo, armamos un [único dataset](ejemplos/clase04_2/Afluencia_turística_CORDOBA.xlsx) con los datos de cada año en una hoja distinta. 

# Procesamos el formato Excel

Una opción: librería [openpyxl](https://openpyxl.readthedocs.io/en/stable/)

In [1]:
from pathlib import Path
from openpyxl import load_workbook

In [3]:
data_route = Path('ejemplos') / "clase04_2" / "Afluencia_turística_CORDOBA.xlsx"

Abrimos el archivo usando la función **load_workbook**

In [4]:
work_book = load_workbook(filename=data_route)

# Obtenemos los nombres de las hojas del archivo

In [5]:
sheet_names = work_book.sheetnames

In [6]:
sheet_names

['2023', '2022', '2021', '2020', '2019', '2018']

# Procesamos las hojas de datos

Vamos a crear un diccionario con el nombre de la hoja como clave. En este caso, corresponden a los años desde 2018 a 2023.

Usamos [iter_rows](https://openpyxl.readthedocs.io/en/stable/api/openpyxl.worksheet.worksheet.html?highlight=iter_rows#openpyxl.worksheet.worksheet.Worksheet.iter_rows)

In [7]:
summer_tourists = {}

In [8]:
for sheet_name in sheet_names:
    sheet = work_book[sheet_name]
    total_tourists = 0
    # Iterar sobre las filas y columnas de la hoja
    for row in sheet.iter_rows(values_only=True):
        if row[0] in ("Ene", "Feb"):
            total_tourists +=  row[10]
    
    summer_tourists[sheet_name] = total_tourists

# Armamos el listado pedido

In [9]:
print("TOTAL DE TURISTAS EN ENERO Y FEBRERO")
print("Año \tTotal de turistas")
for year, data in summer_tourists.items():
    print(f"{year} \t{data}")

TOTAL DE TURISTAS EN ENERO Y FEBRERO
Año 	Total de turistas
2023 	167788
2022 	156111
2021 	103723
2020 	204083
2019 	198448
2018 	203122


# DESAFIO  2

> Guardar los datos del listado previo en un archivo en formato json.

In [10]:
import json

json_file= Path('ejemplos') / "clase04_2" / "turistas.json"

In [11]:
with open(json_file, "w") as file:
    json.dump(summer_tourists, file, indent=4)

# DESAFIO  3

> Queremos generar un archvo con formato csv de siguiente encabezado:

> AÑO, VERANO, OTOÑO, INVIERNO, PRIMAVERA

> con los totales de turistas en cada estación por año. 

Considerar que:
- VERANO, corresponde de diciembre a febrero
- OTOÑO, corresponde de marzo a mayo
- INVIERNO corresponde de junio a agosto
- PRIMAVERA, corresponde de septiembre a noviembre. 


In [None]:
# Solución


<img src="imagenes/portada_video.png" alt="nos vemos el martes" style="width:1050px;"/>
