## 

# Postprocess data

Este módulo tiene como objetivo recoger los datos de entrada y realizar un preprocesamiento de esos
datos para poder analizarlos de la manera más óptima y sencilla posible.

## Importar librerías

In [9]:
from pathlib import Path
from pandas import DataFrame, Series, ExcelWriter
import pandas as pd

## Definicion de variables

In [10]:
input_file = Path("../resources/3_treated_outlier/dataset_completo.xlsx")
output_file = Path("../resources/4_ready/dataset_completo.xlsx")

## Definición de funciones

In [11]:
def data_reorganization(input_file: Path, output_file: Path):
    """ 
    Esta función permite generar un nuevo dataset mostrando la relación con los días más próximos,
    por cada día, se miran los cuatro días anteriores obteniendo su cantidad de usuarios, festividad y dia de la semana,
    mientras que también se muestra el día de mañana pero sin coger la cantidad de usuarios.
    
    """
    
    reader: DataFrame = pd.read_excel(input_file)

    festive: Series = reader["Festivo"]
    day_of_the_week: Series = reader["DiaSemana"]
    temperature: Series = reader["Temperatura"]
    precipitation: Series = reader["Precipitacion"]
    number_users: Series = reader["CantidadUsuarios"]

    writer = ExcelWriter(output_file, engine='xlsxwriter')

    final_dataset = DataFrame({
        'Festivo Hoy': festive.values.tolist(),
        'DiaSemana Hoy': day_of_the_week.values.tolist(),
        'Temperatura Hoy': temperature.values.tolist(),
        'Precipitacion Hoy': precipitation.values.tolist(),
        'Festivo Mannana': festive.shift(-1).values.tolist(),
        'DiaSemana Mannana': day_of_the_week.shift(-1).values.tolist(),
        'CantidadUsuarios Hoy-1': number_users.shift(1).values.tolist(),
        'Festivo Hoy-1': festive.shift(1).values.tolist(),
        'DiaSemana Hoy-1': day_of_the_week.shift(1).values.tolist(),
        'CantidadUsuarios Hoy-2': number_users.shift(2).values.tolist(),
        'Festivo Hoy-2': festive.shift(2).values.tolist(),
        'DiaSemana Hoy-2': day_of_the_week.shift(2).values.tolist(),
        'CantidadUsuarios Hoy-3': number_users.shift(3).values.tolist(),
        'Festivo Hoy-3': festive.shift(3).values.tolist(),
        'DiaSemana Hoy-3': day_of_the_week.shift(3).values.tolist(),
        'CantidadUsuarios Hoy-4': number_users.shift(4).values.tolist(),
        'Festivo Hoy-4': festive.shift(4).values.tolist(),
        'DiaSemana Hoy-4': day_of_the_week.shift(4).values.tolist(),
        'CantidadUsuarios Hoy': number_users.values.tolist(),
    })
    
    # Se eliminan las filas que contienen valores nulos (Los cuatro primeros días y el último día)
    final_dataset = final_dataset.iloc[4:-1].astype(float)
    
    final_dataset.to_excel(writer, sheet_name='teleferico', index=False)
    writer.close()


## Tratamiento de datos

In [12]:
data_reorganization(input_file,output_file)