# Entrega 1
- A00836286 | Esteban Sierra Baccio
- A00837527 | Diego de Jesús Esparza Ruíz
- A01722667 | Javier Jorge Hernández Verduzco
- A01285193 | Sergio Omar Flores García
- A01613878 | Sergio Aarón Hernández Orta


## 1. Exploración Inicial de Datos

In [None]:
# Leer los datos
import pandas as pd
import numpy as np

df = pd.read_excel("../data/raw/Viajes Sep-Dic 24 v2.xlsx", sheet_name='Viajes')
df.head()


## 1.1 Análisis Descriptivo Completo de Todas las Variables

| # | Variable | Descripción |
| :---: | :--- | :--- |
| 1 | **Viaje** | ID del viaje (valor entero de 6 dígitos). |
| 2 | **Permiso** | ID del permiso utilizado. |
| 3 | **Shipment** | Movimiento de mercancías de un punto a otro. Es la unidad básica de transporte o la acción de enviar los bienes. |
| 4 | **Sociedad** | Entidad legal o compañía dentro de la corporación que está realizando o gestionando el transporte. |
| 5 | **Planta Origen** | Código de la planta de origen. |
| 6 | **Tipo Planta** | Clasificación de la planta: "masivos" o "revestidos". |
| 7 | **Origen** | Estado de origen del pedido. |
| 8 | **Destino** | Ciudad destino del pedido. |
| 9 | **Ori-Dest-TT** | Origen, destino y tipo de transporte juntos. |
| 10 | **Ori-Dest** | Origen y destino. |
| 11 | **Deposito Origen** | Código del depósito de origen. |
| 12 | **Tipo planta** | Customizados, masivos o revestidos. |
| 13 | **Desc Org. Apt** | Descripción de la planta de origen apta (ej. Churubusco, monclova o universidad). |
| 14 | **TPP** | Código de la planta. |
| 15 | **Desc TPP** | Nombre de la planta. |
| 16 | **Transp.Leg** | Proveedor de transporte legalmente contratado o tramo del viaje definido por contrato/regulación legal. |
| 17 | **Nombre** | Nombre de la empresa de transportes. |
| 18 | **TpoTrn.APT** | Categoría o clase de transbordo/trayecto apto (ej. directo, consolidado, intermodal). |
| 19 | **TpoTrn.Leg** | ID del tipo de transporte. |
| 20 | **Desc TpoTrn** | Descripción del tipo de transporte. |
| 21 | **Tipo transporte** | Tipo de transporte. |
| 22 | **Garantía** | Indica si el envío tiene garantía de entrega o si se aplica prima de seguro/garantía por el valor de la carga. |
| 23 | **Flete Falso (KG)** | Espacio sin ocupar (*flete falso*) en el transporte, expresado en kilogramos. |
| 24 | **Flete Falso (MXN)** | Cantidad de dinero desperdiciado en **MXN** basado en el peso del flete falso. |
| 25 | **Flete Falso (USD)** | Cantidad de dinero desperdiciado en **USD** basado en el peso del flete falso. |
| 26 | **TpoVje** | Tipo de viaje. |
| 27 | **TpoSrv** | Tipo de servicio. |
| 28 | **TpoPermiso** | Tipo de permiso. |
| 29 | **F.Salida** | Día de salida. |
| 30 | **H.Salida** | Horario de salida. |
| 31 | **\#Remitos** | Número de documentos que acompañan la mercancía. |
| 32 | **Modal.** | Modo de transporte (ej. Terrestre, Marítimo, Aéreo). |
| 33 | **Peso Total (kg)** | Peso total de la carga en kilogramos. |
| 34 | **Costo** | Costo de transporte. |
| 35 | **Costo Prom** | Costo promedio por unidad de medida (envío, kilogramo, kilómetro, etc.). |
| 36 | **Variación** | Diferencia (en monto o porcentaje) entre el costo real/final y un costo estándar o presupuestado. |
| 37 | **CostoxTn** | Costo total de transporte dividido por el peso total en toneladas. Indicador de eficiencia. |
| 38 | **Shp.Cost** | Costo total asociado al envío o expedición (sinónimo de Costo). |
| 39 | **Monto Real** | Valor económico definitivo del flete o servicio, tal como se facturó o incurrió. |
| 40 | **Monto Falso** | Monto presupuestado, costo de referencia simulado o costo basado en tarifa estándar (para comparación con el Real). |
| 41 | **Monto Reparto** | Monto del costo de transporte asignado o distribuido a un centro de costos/producto. |
| 42 | **Moneda** | Moneda con la que se realizó el pago (todas son "MXN"). |
| 43 | **Estatus** | Estado del viaje (todos están en "SH"). |

### 1.2 Identificación de patrones temporales, distribuciones y relaciones preliminares

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Obtener la matriz de correlación solo para columnas numéricas
correlation_matrix = df.select_dtypes(include=[np.number]).corr()

plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Correlation Matrix Heatmap')
plt.show()

: 

Tras la realización de este análisis, podemos concluir que las variables más relacionadas son:
1. Viaje - Permiso - Shipment - Shipcost
2. Costo - Costo promedio - Monto Real
3. Flete falso (kg) - Flete falso (mxn) - Flete falso (usd), y al mismo tiempo, estas se encuentran inversamente relacionadas a peso total

### 1.3 Detección de anomalías, valores atípicos, y datos faltantes

In [None]:
# Deteccion de valores atípicos en la columna 'Costo'
plt.figure(figsize=(10, 6))
sns.boxplot(x=df['Costo'])
plt.title('Boxplot of Costo')
plt.show()

In [None]:
# Detectar valores atípicos usando boxplots
numeric_columns = df.select_dtypes(include=[np.number]).columns
plt.figure(figsize=(15, 10))
for i, col in enumerate(numeric_columns, 1):
    plt.subplot(len(numeric_columns), 1, i)
    sns.boxplot(x=df[col])
    plt.title(f'Boxplot of {col}')
plt.tight_layout()
plt.show()

In [None]:
# Detectar valores faltantes
missing_values = df.isnull().sum()
print("Missing values in each column:")
print(missing_values)

print("Missing values in TpoVje column:")
print(missing_values['TpoVje'])

### 1.4 Primeras visualizaciones exploratorias que sugieran fenómenos interesantes

In [None]:
# Visualizacion de la distribución de una variable numérica
plt.figure(figsize=(10, 6))
sns.histplot(df['Costo'], kde=True)
plt.title('Distribution of Costo')
plt.xlabel('Costo')
plt.ylabel('Frequency')
plt.show()

### 1.5 Reflexión sobre la calidad y limitaciones de los datos disponibles

Después de haber analizado los datos, podemos ver que tenemos una alta calidad de los datos y en muy pocas ocasiones tendremos que cerar datos nuevos para darle sentidoa al resto. Aun falta descubrir ciertas cosas, entre ellas el por qué hay datos faltantes y la limpieza de estos mismos.

## 2. Declaración de Enfoque y Perspectiva

Nuestro problema a la mano se reduce a entender los factores que recientemente han afectado los costos de fletes para Ternium. No tenemos información sobre el mercado de transporte en general, ni su oferta, demanda, capacidad, congestión u otras variables sobre el mercado mismo. Teniendo esta información, del lado de los transportistas, se podrían diseñar metodologías para un enfoque de sistemas complejos, pero considerando las limitaciones de los datos que tenemos, hemos optado por un enfoque primariamente econométrico, y secundariamente de optimización. Es decir, la prioridad será entender las variables que afectan los costos de manera lineal o no lineal. Solo cuando hemos comprendido estas variables exploramos las formas en las que se puede mitigar o atenuar el efecto de estas variables para reducir el costo de transporte con la mínima disrupción de las operaciones de logística actual. Este segundo enfoque requiere un mejor entendimiento de las prioridades y criterios que forman las operaciones logísticas actuales de Ternium, para poder crear una propuesta de cómo se podría minimizar los gastos, eligiendo mejor los momentos y compañías para hacer cada transporte.

Idealmente, el enfoque econométrico iluminará las “situaciones” o “casos” en los que una o dos variables desproporcionadamente afectan el costo de transporte, más allá de las necesidades reales de Ternium. Nosotros asumimos que habrá situaciones que una vez descubiertas se pueden evitar sin dejar de cumplir los objetivos o compromisos logísticos de Ternium. A su vez, el enfoque de optimización requiere que asumamos que las restricciones, condiciones y objetivos de Ternium dejan espacio suficiente para poder elegir tomar los fletes más ventajosos. Si los fletes elegidos son porque son los únicos o entre muy pocos que permiten a Ternium lograr sus compromisos con clientes (internos o externos), lamentablemente nuestra optimización queda reducida de forma significativa o definitiva.

Estos enfoques son los indicados para nuestra situación actual, siendo consciente de perspectiva y visión limitada de la situación, pero a su vez pudiendo ser una manera en la que finalmente sí se logran menores costos de operación y mejores márgenes.



## 3. Preguntas de Investigación

1. ¿Cuáles 3 variables, excluyendo las que directamente describen la carga (peso, tamaño), introducen la mayor cantidad de varianza a el costo?

Si se asume que la carga misma ya es optimizada, es decir, Ternium ya junta todos los pedidos o materiales que van a una misma dirección o ciudad en la menor cantidad de camiones necesarios, las mejores explicaciones sobre lo que afectan el costo vienen de las demás variables.

2. ¿Existen patrones en el costo que, manteniendo las demás variables, solo se pueden explicar por estacionalidad?

Es importante identificar los días, semanas, o estaciones en el año que tienen un efecto desproporcionado en el costo, pues evitar o buscar estas fechas puede implicar un ahorro fácil o simple sin cambiar el volumen que se transporta.

3. ¿Existen ineficiencias en el costo de usar específicas transportadoras o rutas? Es decir, ¿hay transportadoras que compiten por las mismas rutas cobrando fletes más altos?

Al buscar conclusiones sobre la causalidad de los costos de fletes, es importante identificar las ineficiencias sistemáticas de los proveedores que aumentan desproporcionadamente los costos, pues esto puede llevar a una forma de optimizar los mismos costos.

4. ¿Qué factores externos como el precio de la gasolina, cambio de la moneda, clima, entre otras cosas afectan y permiten predecir más acertadamente el costo de fletes?

A pesar de que nuestro set de datos es limitado, puede que factores externos que se pueden obtener con datos públicos permitan tener una perspectiva más amplia y precisa de lo que afecta los precios de fletes, sobre todo si estos datos se usan durante la exploración de las otras preguntas. (e.j., puede que algunas transportistas o rutas sean más sensibles a factores externos creando varianza que no se explica en nuestros datos originales)

5. ¿Qué proporción de la variación en costos se debe a desviaciones de la asignación óptima teórica?

Una vez que se entiende y se puede modelar los costos con cada transportadora en cualquier conjunto de condiciones, podemos estimar cuál sería el costo mínimo para cada flete en el set de datos (usando la transportadora más barata), y comparar con el flete real. Aunque hay factores que impiden que siempre se elija la transportadora “ideal”, es importante para nuestro enfoque econométrico identificar el margen de “pérdida” que proviene de recurrir a las transportadoras menos eficientes.

## 4. Marco Teórico y Revisión de Literatura

4.1 Inteligencia Artificial (AI) y Machine Learning dentro de la Optimización de Costos Logísticos

 

La inteligencia artificial (AI) y machine learning (aprendizaje automático en español) se han fortalecido hasta al punto de volverse herramientas claves dentro del tema de la gestión logística moderna, el cual viene siendo el tipo de problema a resolver para este reto, justificado por su capacidad conjunta de analizar grandes volúmenes de datos y de detectar patrones complejos que tengan efectos con respecto en los costos operativos. Particularmente hablando de machine learning, existen modelos que nos abren camino al momento de abordar diversos problemas multivariables en donde participan los factores internos como distancias, tiempos y rutas al igual que los factores externos como demanda, condiciones del mercado y el clima. Algunos de estos modelos vienen siendo regresión múltiple, árboles de decisión, gradient boosting, redes neuronales como CNN y series temporales como LSTM.

 

En base con Pasupuleti et al. (2024), la aplicación de modelos LSTM (Long Short-Term Memory) y CNN (Convolutional Neural Network) dentro de entornos logísticos ha logrado una mejora con respecto a la precisión de la predicción de la demanda hasta en un 15% y ha reducido los costos de transporte por envió en un 6%. Gracias a estos resultados, se puede demostrar que los métodos que utilizan Machine Learning superan a los enfoques tradicionales como ARIMA o ETS (Estimated Time of Sailing) en donde estos enfoques asumen lineales y realmente no capturan todo el complejo entorno logístico.

 

Partiendo desde el estudio de Wang et al. (2018), respalda esta tendencia de mejora a través de la demostración de integrar Deep Learning combinado con datos en tiempo real (sensores IoT, GPS y registros ERP) lo cual optimiza la planificación de rutas y la asignación de flota. Desde otra perspectiva que viene siendo la de Yang et al. (2023), se señala que Machine Learning adicionalmente refuerza y fortalece la resiliencia de la cadena de suministro mediante la anticipación de disrupciones y la mitigación de riesgos vía modelos de detección de anomalías, simulación de escenarios y Reinforcement Learning. Todo lo anterior sirve como evidencia para sustentar el hecho referente a que la adopción de modelos predicción no se detiene en al mejorar la eficiencia operativa, sino que fortifica la capacidad de respuesta ante variaciones/eventos externos.

4.2 Metodologías y Modelos Aplicados en Problemas Similares

 

Considerando y basándonos en la investigación realizada, logramos encontrar múltiples modelos de Machine Learning que nos ofrecen diversas posibilidades de atacar el problema de reto, sin embargo, las principales que consideramos para dar respuesta a los problemas logísticos de predicción de costos y optimización de rutas de transporte son los siguientes:

 

1. Modelos de regresión y series temporales: Estos modelos son empleados para describir y predecir el comportamiento de costos o la demanda a lo largo del tiempo con el hecho de que las interpretaciones son sencillas, sin embargo, estos mismos modelos presentan limitaciones ante relaciones no lineales o dinámicas (Uyanik & Güler, 2013; Pasupuleti et al., 2024).
 

2. Modelos de Árboles de decisión y Gradient Boosting Trees: Son modelos utilizados para pronosticar costos con datos multidimensionales y, en base a (Natekin & Knoll, 2013), se demostró una reducción de error promedio del 17% en relación con otros modelos lineales de Machine Learning.
 

3. Modelos de Clustering (K-Means y DBSCAN): Los modelos de clustering son esenciales son esenciales para segmentar patrones de comportamiento entre regiones o proveedores lo cual provoca que se generen grupos/perfiles con desempeño logístico similares o que salga a luz riesgos ocultos (Sinaga & Yang, 2020).
 

4. Modelos de Redes Neuronales Recurrentes (LSTM): Permiten analizar dependencias temporales y fluctuaciones no lineales resultando como modelos efectivos al momento de realizar la predicción de demanda o de costos de transporte en entornos dinámicos (Medsker & Jain, 2001).
 

5. Aprendizaje por Refuerzo (Reinforcement Learning): Este concepto fue aplicado recientemente para la optimización dinámica de ruta o decisiones de asignación mientras se ajustaba en tiempo real a las condiciones del mercado y lo cual redujo los costos de combustible o los tiempos de entrega. Adicionalmente, se puede utilizar el reinforcement learning con un enfoque de causalidad para encontrar e identificar que tanto influye ciertas variables con respecto a una variable objetivo.
 

 

 

4.3 Vacíos en la Literatura y Aportes Potenciales del Proyecto

 

En investigación realizada reveló los siguientes vacíos que este proyecto con el socio formador puede abordar:

 

1. Carencia de estudios integrales sobre costos de transporte dentro de mercados emergentes: La mayoría de las referencias académicas utilizadas se centran en contextos europeos o asiáticos lo cual representa un vació de investigación referente a cadenas logísticas latinoamericanas en donde las variaciones en infraestructura, regulación y combustibles generan escenarios únicos (Akbari & Do, 2021).
 

2. Escasa combinación de enfoques descriptivos y predictivos: La mayoría de las referencias académicas abordan el análisis de costos desde una sola perspectiva (descriptiva o predictiva) entonces el proyecto para este reto representa un área de oportunidad para integrar ambas perspectivas para así lograr un entendimiento más completo de las causas y de los efectos de la variabilidad de este reto.
 

3. Débil integración de resiliencia y sostenibilidad: 
 

4. Limitada interpretabilidad de modelos complejos:


## 5. Plan Metodológico Preliminar

# 5.1 Descripción general de los métodos que planean utilizar
El análisis se realizará principalmente a través de un enfoque econométrico, complementado con técnicas de optimización descriptiva. En primera instancia, se buscará identificar y cuantificar los factores que explican la variación en los costos de flete dentro de Ternium. Para ello se implementarán modelos de regresión lineal múltiple, donde la variable dependiente será el costo total de transporte, y las variables independientes incluirán características del viaje, del tipo de transporte, de la planta de origen y de la transportadora.

De manera exploratoria, se considerarán transformaciones logarítmicas o modelos no lineales cuando se detecten relaciones no proporcionales o presencia de heterocedasticidad. Además, se aplicarán análisis de correlación y pruebas de significancia estadística (t-test y F-test) para determinar la relevancia de cada variable en la explicación del costo.

Posteriormente, se utilizará un modelo de optimización comparativa para estimar el costo “óptimo teórico” por viaje, considerando las transportadoras más económicas bajo condiciones similares. Esto permitirá identificar la brecha entre el costo real observado y el costo óptimo simulado, estimando la magnitud de posibles ineficiencias o sobrecostos estructurales.

# 5.2 Justificación de por qué estos métodos son apropiados para sus preguntas
El enfoque econométrico es el más adecuado dada la naturaleza del problema y la disponibilidad de los datos. Los registros históricos de viajes de transporte contienen información suficiente para estimar relaciones causales o explicativas entre variables, pero no incluyen datos externos de mercado, congestión o comportamiento estratégico. Por ello, los métodos econométricos permiten trabajar directamente con los datos internos de Ternium, modelando la sensibilidad de los costos a factores observables como tipo de planta, peso, transportadora o modalidad.

Asimismo, este enfoque se alinea con las preguntas de investigación planteadas, que buscan entender qué variables afectan más el costo, qué patrones temporales o estructurales existen, y qué proporción de los costos puede atribuirse a decisiones no óptimas.

La parte de optimización, en cambio, complementa el análisis al ofrecer una herramienta para medir el impacto económico de posibles decisiones alternativas de asignación de transportadoras. Así, los dos enfoques se integran: el econométrico explica las causas, mientras que la optimización sugiere las oportunidades de mejora.

# 5.3 Variables clave que utilizarán y cómo las transformarán/construirán

Las variables principales utilizadas en el modelo serán:

* **Variable dependiente:**

  * **Costo (MXN)** — valor total del flete por viaje.
  * También se analizarán transformaciones como **Costo por tonelada (CostoxTn)** y **Costo promedio (Costo Prom)** para normalizar según la magnitud de carga.

* **Variables independientes:**

  * **Tipo de planta** (masivos, revestidos, customizados).
  * **Tipo de transporte y servicio** (`TpoTrn.APT`, `TpoTrn.Leg`, `TpoSrv`).
  * **Transportadora / Proveedor (`Transp.Leg`, `Nombre`).**
  * **Origen y destino** (incluyendo combinación `Ori-Dest`).
  * **Peso total (kg)** y **flete falso (kg, MXN, USD)**.
  * **Fecha y hora de salida (`F.Salida`, `H.Salida`)**, que permitirán derivar variables temporales como mes, día de la semana y temporada del año.
  * **Monto real, monto falso y monto de reparto**, que reflejan eficiencia económica y distribución de costos.

A partir de estas variables se construirán nuevos indicadores derivados, tales como:

* **Índice de aprovechamiento de carga:**
  `Peso total / (Peso total + Flete falso)`

* **Desviación de costo teórico:**
  `(Costo real - Costo óptimo) / Costo óptimo`

* **Elasticidad del costo:**
  Cambio porcentual del costo ante variaciones unitarias en variables seleccionadas.


# 5.4 Estrategia de validación que emplearán
Para garantizar la validez y robustez de los resultados, se empleará una estrategia de validación cruzada. El conjunto de datos será dividido en una muestra de entrenamiento (80%) y una muestra de validación (20%) de forma aleatoria, manteniendo la proporción por tipo de planta y transportadora.

Se realizarán pruebas de diagnóstico sobre los residuos de los modelos para verificar los supuestos clásicos de la regresión lineal: independencia, homocedasticidad y normalidad. En caso de detectarse violaciones, se aplicarán modelos robustos (por ejemplo, estimadores de Huber o White) o transformaciones logarítmicas.

Además, se compararán diferentes especificaciones de modelos —por ejemplo, con y sin variables de flete falso o peso total— para evaluar la estabilidad de los coeficientes y la consistencia de los signos. En caso de alta colinealidad entre variables, se considerará el uso de técnicas de regularización (Ridge o Lasso).

Finalmente, para el componente de optimización, se contrastarán los costos simulados (óptimos teóricos) con los costos reales de la base de datos, midiendo la magnitud de los posibles ahorros y la frecuencia con que se repiten ineficiencias entre transportadoras o rutas.

# 5.5 Limitaciones anticipadas de su enfoque
Las principales limitaciones del enfoque propuesto derivan del alcance del conjunto de datos disponible. En primer lugar, los registros no incluyen información externa sobre el mercado de transporte, tales como precios de combustibles, demanda de camiones, congestión o tipo de cambio, por lo que los resultados se circunscriben a los factores internos de Ternium.

En segundo lugar, la presencia de datos faltantes o inconsistentes (por ejemplo, valores nulos en flete falso o costos fuera de rango) puede afectar la precisión de las estimaciones, aunque se aplicará un proceso de limpieza y depuración previo al modelado.

Tercero, el modelo econométrico se basa en la suposición de que los viajes son comparables bajo condiciones similares, lo cual podría no cumplirse si existen factores logísticos específicos no registrados (por ejemplo, disponibilidad de unidades, rutas exclusivas o exigencias de cliente).

Finalmente, el análisis de optimización depende de la validez del modelo econométrico previo; es decir, si las relaciones estimadas no representan bien la realidad operativa, la simulación de costos óptimos puede estar sesgada.

A pesar de estas limitaciones, el plan metodológico propuesto permitirá obtener una comprensión profunda de los determinantes del costo de transporte, identificar ineficiencias recurrentes, y ofrecer una base cuantitativa sólida para recomendaciones futuras de ahorro y mejora operativa dentro del sistema logístico de Ternium.


## 6. Hipótesis Formales


### Pregunta 1: ¿Cuáles 3 variables, excluyendo las que directamente describen la carga (peso, tamaño), introducen la mayor cantidad de varianza al costo?

### Hipotesis Nula: 
-   Las variables no relacionadas con la carga (transportista, ruta, fecha, etc.) no tienen un poder predictivo significativo sobre el costo del flete.

### Hipotesis Alternativa: 
-   Al menos tres variables no relacionadas con la carga (probablemente ruta, transportista, y distancia/tiempo) explican una porción estadísticamente significativa de la varianza del costo.

### Justificación:
-   El costo de un flete es una función de la oferta y la demanda. Si la carga ya está optimizada, la varianza del costo debe venir de factores operacionales (eficiencia y tarificación del transportista), geográficos (costo asociado a la ruta o distancia), o temporales (fecha/estacionalidad). La exploración inicial de groupby() ya ha mostrado que el transportista es una fuente de varianza considerable.

### Evaluación/Prueba:

-   Modelo de Regresión Lineal Múltiple (MLR): Se construirá un modelo MLR donde la variable dependiente es el Costo y las variables independientes son todas las demás variables (codificadas, o "dummy").

-   Métricas de Varianza: Se utilizarán las métricas R2 ajustado y los valores p (p-values) de los coeficientes de las variables.

-   Selección de Variables: Se aplicará la técnica Recursive Feature Elimination (RFE) o se analizarán los pesos/coeficientes estandarizados para identificar las 3 variables con el mayor poder explicativo.


### Pregunta 2: ¿Existen patrones en el costo que, manteniendo las demás variables, solo se pueden explicar por estacionalidad?

### Hipotesis Nula:

-   La fecha (día de la semana, mes, o estación) no tiene un efecto estadísticamente significativo en el costo del flete, después de controlar por la ruta y el transportista.

### Hipotesis Alternativa:
-   Existen períodos específicos (días de la semana, meses o estaciones) que muestran un costo promedio significativamente diferente al promedio anual/mensual.

### Justiicacion:
-   Los costos operativos y los peajes pueden variar por día de la semana (mayor congestión en días laborales), y la demanda/precio del combustible o las condiciones climáticas extremas pueden impactar los precios en ciertos meses, independientemente de la distancia recorrida. La exploración por groupby(['Mes', 'Costo']).mean() nos dará la base.

### Evaluación/Prueba:
-   Análisis de Varianza (ANOVA): Utilizar ANOVA para comparar la media de los costos entre diferentes categorías de tiempo (ej. Días de la semana o Meses).

-   Gráficos de Series Temporales: Visualizar la media móvil del costo a lo largo del tiempo para identificar picos recurrentes (estacionalidad).

-   Modelo de Regresión con Variables Dummy: Incluir variables dummy para el mes o día de la semana en un modelo de regresión para ver si sus coeficientes son significativos (valores p<0.05) después de incluir variables de control (ruta y transportista).



### Pregunta 3: ¿Existen ineficiencias en el costo de usar específicas transportadoras o rutas? Es decir, ¿hay transportadoras que compiten por las mismas rutas cobrando fletes más altos?

### Hipotesis Nula:
-    No existe una diferencia significativa en los costos de flete entre los transportistas que operan en las mismas rutas.

### Hipotesis Alternativa:
-   Al menos un transportista cobra un costo promedio significativamente más alto que sus competidores directos en las rutas que comparten.

### Justificación:
-   Si varias transportistas ofrecen servicio en la misma ruta, la competencia debería llevar a la convergencia de precios. La existencia de precios muy dispersos para el mismo servicio apunta a una ineficiencia o un poder de mercado por parte de un proveedor.

### Evaluacion/Prueba
-   Análisis de Variación por Grupo:

-       Filtrar las rutas más comunes (donde al menos 3 transportistas compiten).

-       Para cada ruta, calcular la desviación estándar y el Coeficiente de Variación (CV) de los costos. Un CV alto en una ruta con múltiples proveedores indica ineficiencia.

-   Pruebas T-Student/ANOVA: En rutas clave, realizar una prueba ANOVA o múltiples pruebas T-Student para comparar si la media del costo de un transportista específico es estadísticamente diferente y más alta que la de los otros en esa misma ruta.





### Pregunta 4: ¿Qué factores externos como el precio de la gasolina, cambio de la moneda, clima, entre otras cosas afectan y permiten predecir más acertadamente el costo de fletes?

### Hipotesis Nula:
-   Los factores externos (precio del combustible, tipo de cambio, clima) no mejoran la precisión predictiva del costo del flete más allá de lo que se explica con variables internas (transportista, ruta).

### Hipotesis Alternativa:
-   Los datos de factores externos tienen una correlación estadísticamente significativa con el costo del flete y mejoran el R2 ajustado del modelo predictivo.

### Justificación:
-   Los costos operativos de los fletes están directamente relacionados con el precio del diésel y, a nivel de importación de repuestos o financiamiento, con el tipo de cambio. Incluir estos datos externos debe capturar varianza que no se observa solo con los datos internos de Ternium.

### Evaluación/Prueba:
-   Correlación: Calcular el coeficiente de correlación de Pearson entre el Costo y las variables externas (gasolina, tipo de cambio, etc.) para identificar relaciones lineales.

Modelos de Regresión Jerárquica:

-   Construir un Modelo Base con solo variables internas (Ruta, Transportista, etc.).

-   Construir un Modelo Completo agregando las variables externas.

-   Comparar el R2 ajustado y el valor p del cambio en R2.

-   Si el R2 ajustado aumenta significativamente con las variables externas, la hipótesis alternativa es apoyada.


### Pregunta 5: ¿Qué proporción de la variación en costos se debe a desviaciones de la asignación óptima teórica?

### Hipotesis Nula:
-   La diferencia entre el costo real y el costo predicho por la optimización teórica se explica completamente por el ruido o factores no modelados, sin una desviación sistemática.

### Hipotesis Alternativa:
-   Existe una porción significativa del costo que se debe a desviaciones sistemáticas de la asignación óptima teórica (es decir, el costo real es consistentemente más alto que el costo óptimo predicho).

### Justificación:
-   Si existe una desviación del costo óptimo teórico, es importante cuantificarla para establecer una métrica de ineficiencia. El modelo óptimo predice el costo esperado bajo eficiencia perfecta. La diferencia con el costo real representa la prima pagada.

### Evaliación/Pruebas:
-   Modelo Predictivo Óptimo: Utilizar el modelo de regresión más preciso (el de la Pregunta 4) para predecir el Costo Óptimo de cada flete.

-   Cálculo de la Desviación: Crear una nueva métrica: Desviación = Costo Real - Costo Óptimo Predicho.

-   Proporción de Varianza: Calcular la varianza de la Desviación y compararla con la varianza total del Costo Real. La proporción cuantifica la varianza explicada por la ineficiencia (la desviación de la asignación óptima).

-   Análisis de Sesgo: Evaluar si la media de la Desviación es significativamente mayor que cero (prueba T), indicando que el costo real es consistentemente más alto que el costo predicho.





# Referencias:

- Akbari, M., & Do, T. N. A. (2021). A systematic review of machine learning in logistics and supply chain management: Current trends and future directions. Benchmarking: An International Journal, 28(9), 2977–3005. https://doi.org/10.1108/BIJ-04-2020-0181
- Caton, S., Malisetty, S., & Haas, C. (2022). Impact of imputation strategies on fairness in machine learning. Journal of Artificial Intelligence Research, 74, 1011–1035. https://arxiv.org/pdf/2408.13556
- Elahi, M., Afolaranmi, S. O., Martinez Lastra, J. L., & Perez Garcia, J. A. (2023). Applications of AI techniques through the lifecycle of industrial equipment. Discover Artificial Intelligence, 3, 43. https://arxiv.org/pdf/2211.17078
- Medsker, L. R., & Jain, L. (2001). Recurrent neural networks: Design and applications. CRC Press. https://doi.org/10.1201/9781420049773
- Natekin, A., & Knoll, A. (2013). Gradient boosting machines: A tutorial. Frontiers in Neurorobotics, 7, 21. https://doi.org/10.3389/fnbot.2013.00021
- Odimarha, A. C., Ayodeji, S. A., & Abaku, E. A. (2024). Machine learning’s influence on supply chain and logistics optimization in the oil and gas sector. Computer Science and IT Research Journal, 5(3), 725–740. https://arxiv.org/pdf/2503.14556
- Pasupuleti, V., Thuraka, B., Kodete, C. S., & Malisetty, S. (2024). Enhancing supply chain agility and sustainability through machine learning: Optimization techniques for logistics and inventory management. Logistics, 8(3), 73. https://www.mdpi.com/2305-6290/8/3/73
- Sinaga, K. P., & Yang, M. S. (2020). Unsupervised K-means clustering algorithm. IEEE Access, 8, 80716–80727. https://doi.org/10.1109/ACCESS.2020.2988796
Suwignjo, P., Panjaitan, L., Baihaqy, A., & Rusdiansyah, A. (2023). Predictive analytics to improve inventory performance: A case study of an FMCG company. Operations and Supply Chain Management: An International Journal, 16(3), 293–310. https://doi.org/10.31387/oscm0520378
- Theodorou, E., Spiliotis, E., & Assimakopoulos, V. (2023). Optimizing inventory control through a data-driven and model-independent framework. EURO Journal on Transportation and Logistics, 12, 100103. https://doi.org/10.1016/j.ejtl.2023.100103
- Uyanik, G. K., & Güler, N. (2013). A study on multiple linear regression analysis. Procedia – Social and Behavioral Sciences, 106, 234–240. https://doi.org/10.1016/j.sbspro.2013.12.027
Wang, J., Ma, Y., Zhang, L., Gao, R. X., & Wu, D. (2018). Deep learning for smart manufacturing: Methods and applications. Journal of Manufacturing Systems, 48, 144–156. https://doi.org/10.1016/j.jmsy.2018.04.008
- Yang, M., Lim, M. K., Qu, Y., Ni, D., & Xiao, Z. (2023). Supply chain risk management with machine learning technology: A literature review and future research directions. Computers & Industrial Engineering, 175, 108859. https://doi.org/10.1016/j.cie.2023.108859

