# Entrega 1
- A00836286 | Esteban Sierra Baccio
- A00837527 | Diego de Jesús Esparza Ruíz
- A01722667 | Javier Jorge Hernández Verduzco
- A01285193 | Sergio Omar Flores García
- A01613878 | Sergio Aarón Hernández Orta


## 1. Exploración Inicial de Datos (2-3 páginas + código)

In [None]:
# Leer los datos
import pandas as pd
import numpy as np

df = pd.read_excel("../data/raw/Viajes Sep-Dic 24 v2.xlsx", sheet_name='Viajes')
df.head()


### 1.1 Análisis descriptivo completo de todas las variables


1. Viaje
    - Se refiere al ID del viaje, es un valor entero de 6 dígitos.
2. Permiso
    - El ID del permiso utilizado.
3. Shipment
    - Movimiento de mercancías de un punto a otro. Es la unidad básica de transporte o la acción de enviar los bienes
4. Sociedad
    - Entidad legal o compañía dentro de la corporación que está realizando o gestionando el transporte
5. Planta Origen
    - El código de la planta de origen.
6. Tipo Planta
    - Puede ser "masivos" o "revestidos"
7. Origen
    - Estado de origen del pedido.
8. Destino
    - Ciudad destino del pedido.
9. Ori-Dest-TT
    - Origen, destino y tipo de transporte juntos.
10. Ori-Dest
    - Origen y destino
11. Deposito Origen
    - Código del depósito de origen
12. Tipo planta
    - Customizados, masivos o revestidos
13. Desc Org. Apt
    - Churubusco, monclova o universidad
14. TPP
    - Código de la planta
15. Desc TPP
    - El nombre de la planta
16. Transp.Leg
    - Proveedor de transporte legalmente contratado o al tramo del viaje definido por un contrato o regulación legal.
5. Nombre
    - Nombre de la empresa de transportes
5. TpoTrn.APT
    - Categoría o clase de transbordo o trayecto que se considera apto para esa operación específica (ej. directo, consolidado, intermodal).
5. TpoTrn.Leg
    - Id del tipo de transporte
5. Desc TpoTrn
    - Descripcion del tipo de transporte
5. Tipo transporte
    - Tipo de transporte
5. Garantía
    - Puede ser un campo que indica si el envío tiene una garantía de entrega (ej. de tiempo) o si se aplica una prima de seguro o garantía por el valor de la carga.
5. Flete Falso (KG)
    - Se denomina “flete falso” al espacio sin ocupar que queda libre en el medio de transporte que lleva una carga. Por ejemplo, cuando la carga de un camión ocupa sólo una parte de la capacidad total del mismo, se produce una disminución del rendimiento de la flota y a su vez se genera un sobre costo para el fletador.
5. Flete Falso (MXN)
    - En base al peso del flete falso se obtiene una cantidad de dinero desperdiciado en MXN
5. Flete Falso (USD)
    - En base al peso del flete falso se obtiene una cantidad de dinero desperdiciado en USD
5. TpoVje
    - Tipo de viaje
5. TpoSrv
    - Tipo de servicio
5. TpoPermiso
    - Tipo de permiso
5. F.Salida
    - Día de salida
5. H.Salida
    - Horario de salida
5. #Remitos
    - Se refiere al número de documentos que acompañan la mercancía, detallando lo que se transporta. El símbolo # antes del nombre sugiere que es el número de remitos.
5. Modal.
    - 	Indica el modo en que se realiza el transporte (ej. Terrestre (camión, tren), Marítimo (barco), Aéreo (avión)).
5. Peso Total (kg)
    - Peso total de la carga
5. Costo
    - Costo de transporte
5. Costo Prom
    - El costo promedio por unidad de medida (podría ser por envío, por kilogramo, por kilómetro, etc., dependiendo del cálculo de la empresa).
5. Variación
    - Generalmente indica la diferencia (en monto o porcentaje) entre el costo real/final y un costo estándar, presupuestado, o el costo promedio.
5. CostoxTn
    - Costo por tonelada. El costo total de transporte dividido por el peso total en toneladas del envío. Es un indicador clave de eficiencia.
5. Shp.Cost
    - El costo total asociado al envío o la expedición, sin prorratear. Es sinónimo de Costo.
5. Monto Real
    - El valor económico definitivo del flete o del servicio de transporte, tal como se facturó o incurrió.
5. Monto Falso
    - Es un término inusual; podría referirse al monto presupuestado, un costo de referencia simulado para comparación, o un costo basado en una tarifa estándar antes de aplicar descuentos o cargos reales.
5. Monto Reparto
    - El monto del costo de transporte que ha sido asignado o distribuido a un centro de costos, producto o cliente específico.
5. Moneda
    - Moneda con la que se realizó el pago, todas son "MXN"
5. Estatus
    - Estado del viaje, todos están en "SH"

### 1.2 Identificación de patrones temporales, distribuciones y relaciones preliminares

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Obtener la matriz de correlación solo para columnas numéricas
correlation_matrix = df.select_dtypes(include=[np.number]).corr()

plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Correlation Matrix Heatmap')
plt.show()

Tras la realización de este análisis, podemos concluir que las variables más relacionadas son:
1. Viaje - Permiso - Shipment - Shipcost
2. Costo - Costo promedio - Monto Real
3. Flete falso (kg) - Flete falso (mxn) - Flete falso (usd), y al mismo tiempo, estas se encuentran inversamente relacionadas a peso total

### 1.3 Detección de anomalías, valores atípicos, y datos faltantes

In [None]:
# Deteccion de valores atípicos en la columna 'Costo'
plt.figure(figsize=(10, 6))
sns.boxplot(x=df['Costo'])
plt.title('Boxplot of Costo')
plt.show()

In [None]:
# Detectar valores atípicos usando boxplots
numeric_columns = df.select_dtypes(include=[np.number]).columns
plt.figure(figsize=(15, 10))
for i, col in enumerate(numeric_columns, 1):
    plt.subplot(len(numeric_columns), 1, i)
    sns.boxplot(x=df[col])
    plt.title(f'Boxplot of {col}')
plt.tight_layout()
plt.show()

In [None]:
# Detectar valores faltantes
missing_values = df.isnull().sum()
print("Missing values in each column:")
print(missing_values)

print("Missing values in TpoVje column:")
print(missing_values['TpoVje'])

### 1.4 Primeras visualizaciones exploratorias que sugieran fenómenos interesantes

In [None]:
# Visualizacion de la distribución de una variable numérica
plt.figure(figsize=(10, 6))
sns.histplot(df['Costo'], kde=True)
plt.title('Distribution of Costo')
plt.xlabel('Costo')
plt.ylabel('Frequency')
plt.show()

### 1.5 Reflexión sobre la calidad y limitaciones de los datos disponibles

Después de haber analizado los datos, podemos ver que tenemos una alta calidad de los datos y en muy pocas ocasiones tendremos que cerar datos nuevos para darle sentidoa al resto. Aun falta descubrir ciertas cosas, entre ellas el por qué hay datos faltantes y la limpieza de estos mismos.

## 2. Declaración de Enfoque y Perspectiva (1 página)

¿Qué perspectiva adoptarán para analizar el problema? (econométrica, optimización, machine learning, sistemas complejos, teoría de juegos, etc.)
¿Por qué este enfoque es apropiado dados los datos y el contexto del problema?
¿Qué aspectos del problema su enfoque iluminará? ¿Qué aspectos potencialmente oscurecerá?
¿Qué supuestos fundamentales están haciendo?

Nuestro problema a la mano se reduce a entender los factores que recientemente han afectado los costos de fletes para Ternium. No tenemos información sobre el mercado de transporte en general, ni su oferta, demanda, capacidad, congestión u otras variables sobre el mercado mismo. Teniendo esta información, del lado de los transportistas, se podrían diseñar metodologías para un enfoque de sistemas complejos, pero considerando las limitaciones de los datos que tenemos, hemos optado por un enfoque primariamente econométrico, y secundariamente de optimización. Es decir, la prioridad será entender las variables que afectan los costos de manera lineal o no lineal. Solo cuando hemos comprendido estas variables exploramos las formas en las que se puede mitigar o atenuar el efecto de estas variables para reducir el costo de transporte con la mínima disrupción de las operaciones de logística actual. Este segundo enfoque requiere un mejor entendimiento de las prioridades y criterios que forman las operaciones logísticas actuales de Ternium, para poder crear una propuesta de cómo se podría minimizar los gastos, eligiendo mejor los momentos y compañías para hacer cada transporte.

Idealmente, el enfoque econométrico iluminará las “situaciones” o “casos” en los que una o dos variables desproporcionadamente afectan el costo de transporte, más allá de las necesidades reales de Ternium. Nosotros asumimos que habrá situaciones que una vez descubiertas se pueden evitar sin dejar de cumplir los objetivos o compromisos logísticos de Ternium. A su vez, el enfoque de optimización requiere que asumamos que las restricciones, condiciones y objetivos de Ternium dejan espacio suficiente para poder elegir tomar los fletes más ventajosos. Si los fletes elegidos son porque son los únicos o entre muy pocos que permiten a Ternium lograr sus compromisos con clientes (internos o externos), lamentablemente nuestra optimización queda reducida de forma significativa o definitiva.

Estos enfoques son los indicados para nuestra situación actual, siendo consciente de perspectiva y visión limitada de la situación, pero a su vez pudiendo ser una m


## 3. Preguntas de Investigación (2 páginas)

Formulen mínimo 5 preguntas de investigación que guiarán su análisis. Cada pregunta debe:

Ser específica y comprobable con los datos disponibles
Ir más allá de lo descriptivo hacia lo explicativo o causal
Conectar con su enfoque metodológico elegido
Incluir una breve justificación de por qué es importante (2-3 oraciones)


## 4. Marco Teórico y Revisión de Literatura (3-4 páginas)

Mínimo 10 referencias académicas relevantes a su enfoque
Síntesis de conceptos clave que informarán su análisis
Identificación de metodologías utilizadas en problemas similares
Justificación de cómo la literatura informa sus preguntas de investigación
Gaps en la literatura que su análisis podría abordar

## 5. Plan Metodológico Preliminar (2 páginas)

Descripción general de los métodos que planean utilizar
Justificación de por qué estos métodos son apropiados para sus preguntas
Variables clave que utilizarán y cómo las transformarán/construirán
Estrategia de validación que emplearán
Limitaciones anticipadas de su enfoque


## 6. Hipótesis Formales (1 página)

Para cada pregunta de investigación principal, formulen:

Hipótesis nula y alternativa
Justificación basada en teoría o exploración inicial
Cómo planean probar/evaluar cada hipótesis