# Buenas prácticas para estrucuturar el código

##   Estructurar los apartados

Con conocimiento del contexto, se puede estructurar el código. El siguiente es un ejemplo.



### Iniciar con la estructura que va a utilizar

1. Librerías
2. Preparación de los datos
3. Split de los datos
4. Primera estimación de la Data
  a. Plot de Obs vs Predict
  b. Godness of fit
5. Hyperparameter Tuning
6. Estimation Estimation con el Tuning
  a. Plot de Obs vs Predict
  b. Godness of fit
7. Backtesting
8. Forecast con todo el set de Datos
9. IC con bootstrap

## 1. Librerías
## 2. Preparación de los datos
## 3. Split de los datos
## 4. Primera estimación de la Data
###   a. Plot de Obs vs Predict
###   b. Godness of fit
## 5. Hyperparameter Tuning
## 6. Estimation Estimation con el Tuning
###   a. Plot de Obs vs Predict
###   b. Godness of fit
## 7. Backtesting
## 8. Forecast con todo el set de Datos
## 9. IC con bootstrap

### Poner comentarios que clarifican mejor el contexto códido, luego de haber expuesto el apartado

In [2]:
# Libraries used in this notebook:

# Data manipulation
# ==============================================================================
import numpy as np
import pandas as pd

# Plots
# ==============================================================================
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
plt.rcParams['lines.linewidth'] = 1.5
plt.rcParams['font.size'] = 10

# Modeling and Forecasting
# ==============================================================================
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.ensemble import RandomForestRegressor
# from sklearn.metrics import mean_squared

In [None]:
# Data download
# ==============================================================================
url = 'https://raw.githubusercontent.com/JoaquinAmatRodrigo/skforecast/master/data/h2o_exog.csv'
data = pd.read_csv(url, sep=',')
data.head()

In [None]:
# Split data into train-test
# ==============================================================================
steps = 36
data_train = data[:-steps]
data_test  = data[-steps:]

print(f"Train dates : {data_train.index.min()} --- {data_train.index.max()}  (n={len(data_train)})")
print(f"Test dates  : {data_test.index.min()} --- {data_test.index.max()}  (n={len(data_test)})")

## Claridad y consistencia en la asignación de los objetos

### Asignaciones de nombre en los DataFrame

Los nombre de las asignaciones en los DataFrames debe ser clara. 
Data o data, no es correcto en un contexto profesinal 

In [None]:
# Data Ingestion -----> Mala práctica
# ==============================================================================

import pandas as pd

# Crear el dataframe
Data = pd.DataFrame({
    'Fecha': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
    'Producto': ['A', 'B', 'C', 'A', 'B'],
    'Cantidad': [10, 15, 8, 12, 9],
    'Precio': [100, 150, 120, 110, 160],
    'Total': [1000, 2250, 960, 1320, 1440]
})

# Mostrar el dataframe
print(Data)

In [None]:
# Data Ingestion -----> Buena práctica
# ==============================================================================


# Crear el dataframe
Ventas_DF = pd.DataFrame({
    'Producto': ['A', 'B', 'C', 'B', 'A'],
    'Vendedor': ['Juan', 'María', 'Pedro', 'Juan', 'Pedro'],
    'Cantidad': [5, 8, 12, 10, 7],
    'Total': [500, 1200, 1800, 1000, 700]
})

# Mostrar el dataframe
print(Ventas_DF)

### Asignaciones de nombre de las columnas

In [None]:
import pandas as pd

# Crear el dataframe con variables abreviadas
Data_Abre = pd.DataFrame({
    'Fch': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
    'Pdct': ['A', 'B', 'C', 'A', 'B'],
    'Qty': [10, 15, 8, 12, 9],
    'Pr': [100, 150, 120, 110, 160],
    'Ttl': [1000, 2250, 960, 1320, 1440]
})

# Mostrar el dataframe con variables abreviadas
print(Data_Abre)

In [None]:
import pandas as pd

# Crear el dataframe con variables claras
Ventas = pd.DataFrame({
    'Fecha': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
    'Producto': ['A', 'B', 'C', 'A', 'B'],
    'Cantidad': [10, 15, 8, 12, 9],
    'Precio': [100, 150, 120, 110, 160],
    'Total': [1000, 2250, 960, 1320, 1440]
})

# Mostrar el dataframe con variables claras
print(Ventas)

## Evitar las repeticiones en el código

### Creación de funciones en procesos repetitivos

In [None]:
# Regresión 1
# ==============================================================================

# Dividir los datos en variables independientes (X) y variable dependiente (y)
X = data[['Feature1', 'Feature2']]
y = data['Target']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de regresión lineal
model = LinearRegression()

# Ajustar el modelo a los datos de entrenamiento
model.fit(X_train, y_train)

# Predecir los valores de la variable dependiente en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Imprimir el MSE
print("Error cuadrático medio:", mse)


#.
#.
#.

# Regresión 425546467456
# ==============================================================================

X = data[['Feature1', 'Feature2']]
y = data['Target']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de regresión lineal
model = LinearRegression()

# Ajustar el modelo a los datos de entrenamiento
model.fit(X_train, y_train)

# Predecir los valores de la variable dependiente en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Imprimir el MSE
print("Error cuadrático medio:", mse)


In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

def regression_procedure(data):
    # Dividir los datos en variables independientes (X) y variable dependiente (y)
    X = data[['Feature1', 'Feature2']]
    y = data['Target']

    # Dividir los datos en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Crear el modelo de regresión lineal
    model = LinearRegression()

    # Ajustar el modelo a los datos de entrenamiento
    model.fit(X_train, y_train)

    # Predecir los valores de la variable dependiente en el conjunto de prueba
    y_pred = model.predict(X_test)

    # Calcular el error cuadrático medio (MSE)
    mse = mean_squared_error(y_test, y_pred)

    return mse

# Cargar los datos
data = pd.read_csv('datos.csv')

# Realizar la regresión lineal utilizando la función
mse = regression_procedure(data)

# Imprimir el MSE
print("Error cuadrático medio:", mse)

## Evitar largas líneas de código

In [None]:
# Ejemplo con líneas de código largas
# ==============================================================================

resultado = funcion_larga_con_argumentos_largos(expresion_larga_con_argumentos_largos, otra_expresion_larga_con_argumentos_largos)
variable_larga = otra_funcion_larga_con_argumentos_largos(resultado, argumento_largo, otro_argumento_largo)
otra_variable_larga = otra_funcion_larga_con_argumentos_largos(variable_larga, argumento_largo, otro_argumento_largo)


In [None]:
# Ejemplo con líneas de código cortas y efectivas
# ==============================================================================

resultado = funcion_corta(expresion_corta, otra_expresion_corta)
variable = otra_funcion_corta(resultado, argumento, otro_argumento)
otra_variable = otra_funcion_corta(variable, argumento, otro_argumento)

## Dividir una gran tarea en trozos más pequeños. 

In [None]:
# Ejemplo del mismo proceso dividido en trozos más pequeños y claros
# ==============================================================================

# Función para calcular algo complejo
def calcular_algo_complejo(datos, parametro1, parametro2):
    # Líneas de código claras y enfocadas en un cálculo específico
    # ...
    return resultado1

# Función para transformar algo complicado
def transformar_algo_complicado(resultado1, parametro3, parametro4):
    # Líneas de código claras y enfocadas en una transformación específica
    # ...
    return resultado2

# Función para generar visualización compleja
def generar_visualizacion_compleja(resultado2, parametro5, parametro6):
    # Líneas de código claras y enfocadas en la generación de la visualización
    # ...

# Proceso principal
def main():
    # Paso 1: Realizar cálculos complejos
    resultado1 = calcular_algo_complejo(datos1, parametro1, parametro2)

    # Paso 2: Aplicar transformaciones complicadas
    resultado2 = transformar_algo_complicado(resultado1, parametro3, parametro4)

    # Paso 3: Generar visualización compleja
    generar_visualizacion_compleja(resultado2, parametro5, parametro6)

# Ejecutar el proceso principal
main()

## Organizar códigos en archivos más compatos 

## 