#  IA para Redes de Suministro 

üë§ **Autor:** John Leonardo Vargas Mesa  
üîó [LinkedIn](https://www.linkedin.com/in/leonardovargas/) | [GitHub](https://github.com/LeStark)  

## üìÇ Repositorio en GitHub  
- üìì **Notebooks:** [Acceder aqu√≠](https://github.com/LeStark/Cursos/tree/main/IA4SC)  
- üìë **Data sets:** [Acceder aqu√≠](https://github.com/LeStark/Cursos/tree/main/Data/SC)  
---

# üìò Notebook 2 ‚Äì Aprendizaje No Supervisado en Cadenas de Suministro

En este notebook continuaremos trabajando con el mismo dataset utilizado en el **Notebook 1** (evaluaci√≥n de proveedores).  
Sin embargo, a diferencia del enfoque supervisado, aqu√≠ ocultaremos la variable categ√≥rica de respuesta y le pediremos a un algoritmo de aprendizaje no supervisado que agrupe a los proveedores en categor√≠as basadas √∫nicamente en los patrones detectados en los datos num√©ricos.  

Este enfoque nos permitir√° explorar c√≥mo el modelo puede descubrir estructuras y segmentos ocultos dentro de la informaci√≥n sin usar etiquetas previas.

### Estructura del Dataset

El dataset contiene variables asociadas a la evaluaci√≥n de proveedores:

- **Tiempo_entrega_dias**: n√∫mero promedio de d√≠as de entrega.  
- **Confiabilidad_entregas**: consistencia en despachos a tiempo.  
- **Costos_de_transacci√≥n**: costos administrativos y de gesti√≥n asociados.  
- **Defectos_por_mill√≥n**: nivel de calidad medido en defectos detectados.  

En este notebook no utilizaremos la columna `categoria_proveedor`, pues el objetivo es que el algoritmo genere sus propias categor√≠as.

### üéØ Objetivos del Notebook
- Aplicar un an√°lisis exploratorio (EDA) enfocado en identificar patrones entre las variables.  
- Implementar algoritmos de clustering (ej. *K-Means*) para segmentar a los proveedores en grupos.  
- Comparar los grupos generados por el modelo con las categor√≠as originales (ocultas) para evaluar la calidad de los clusters.  
- Visualizar los resultados y reflexionar sobre su aplicabilidad en la gesti√≥n de la cadena de suministro.  

### üõ†Ô∏è Herramientas a utilizar
- **pandas** y **numpy**: manipulaci√≥n de datos.  
- **matplotlib** y **seaborn**: visualizaci√≥n de patrones y clusters.  
- **scikit-learn**: algoritmos de clustering y m√©tricas de evaluaci√≥n no supervisada.  

‚úÖ Al finalizar este notebook, comprender√°s c√≥mo los m√©todos no supervisados pueden **descubrir estructuras y segmentar proveedores** sin necesidad de etiquetas previas, lo que resulta muy √∫til en escenarios donde la clasificaci√≥n manual no est√° disponible.


In [None]:
# Librer√≠as principales para el proyecto

# Manipulaci√≥n y an√°lisis de datos
import pandas as pd
import numpy as np

# Visualizaci√≥n de datos
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

# Utilidades matem√°ticas
import math

# Manejo de advertencias (para ocultar mensajes innecesarios)
import warnings
warnings.filterwarnings('ignore')

# Preprocesamiento de datos
from sklearn.preprocessing import StandardScaler  # Estandarizaci√≥n de variables num√©ricas
from sklearn.cluster import KMeans
from sklearn.metrics import (
    adjusted_rand_score,        # √çndice de Rand ajustado
    normalized_mutual_info_score,  # Informaci√≥n mutua normalizada
    v_measure_score             # V-Measure
)

# Guardado y carga de modelos entrenados
import joblib

In [None]:
# üì• Carga del Dataset de Evaluaci√≥n de Proveedores
# ------------------------------------------------
# En esta celda cargamos un dataset adaptado del famoso Iris,
# pero reinterpretado en el contexto de cadenas de suministro.
#
# El archivo est√° almacenado en un repositorio de GitHub y lo
# leemos directamente con pandas usando pd.read_csv().
# Luego mostramos las primeras filas para confirmar que se carg√≥ bien
# y entender la estructura de las variables.

url = "https://raw.githubusercontent.com/LeStark/Cursos/refs/heads/main/00%20-%20Data/02%20-%20SC/iris_evaluacion_proveedores.csv"
data = pd.read_csv(url)

data_unsupervised = data.drop(columns=['categoria_proveedor'])
data_unsupervised.info()
data_unsupervised.head()

## An√°lisis Exploratorio de Datos (EDA)

En esta celda realizamos un primer acercamiento a los datos antes de aplicar algoritmos de clustering.  
El objetivo es entender la distribuci√≥n de las variables, detectar posibles valores at√≠picos y observar relaciones entre atributos.  

### 1Ô∏è Histogramas y distribuciones KDE
Se grafican histogramas de todas las variables num√©ricas del dataset.  
Esto nos permite:
- Identificar la forma de la distribuci√≥n (sim√©trica, sesgada, multimodal).  
- Detectar concentraciones de valores o posibles rangos at√≠picos.  

### 2Ô∏è Boxplots para detectar outliers
Con los boxplots horizontales observamos la dispersi√≥n y presencia de valores extremos (*outliers*).  
Estos valores son importantes porque algoritmos como K-Means se basan en distancias, y los outliers pueden influir en la formaci√≥n de clusters.  

### 3Ô∏è Matriz de correlaci√≥n
La matriz de correlaci√≥n muestra qu√© tan relacionadas est√°n las variables entre s√≠:  
- Valores cercanos a **1** ‚Üí correlaci√≥n positiva fuerte.  
- Valores cercanos a **-1** ‚Üí correlaci√≥n negativa fuerte.  
- Valores cercanos a **0** ‚Üí poca o ninguna relaci√≥n.  



In [None]:
# ============================
# 1Ô∏è Histogramas de distribuci√≥n
# ============================
#TODO: Completar con gr√°ficos de distribuci√≥n


# ============================
# 2Ô∏è Boxplots para detectar outliers
# ============================
plt.figure(figsize=(10,6))
sns.boxplot(data=data_unsupervised, orient="h", palette="turbo")
plt.title("Boxplots de variables num√©ricas")
plt.show()

# ============================
# 3Ô∏è Matriz de correlaci√≥n
# ============================
plt.figure(figsize=(8,6))
sns.heatmap(data_unsupervised.corr(), annot=True, cmap="YlGn", fmt=".2f")
plt.title("Matriz de correlaci√≥n")
plt.show()


## Estandarizaci√≥n de variables

En esta celda aplicamos **StandardScaler** para transformar todas las variables num√©ricas de manera que tengan **media 0 y desviaci√≥n est√°ndar 1**.  
Este paso es esencial en algoritmos de clustering como **K-Means**, ya que se basan en distancias y es necesario que todas las variables aporten de forma equilibrada, sin que unas dominen sobre otras por su escala.  


In [None]:

#TODO: 

# Revisamos las primeras filas del dataset escalado
print(X_scaled.head())



## Entrenamiento del modelo K-Means

En esta celda aplicamos el algoritmo **K-Means** para segmentar a los proveedores en grupos basados en patrones encontrados en los datos.  

###  Pasos realizados

1. **Inicializaci√≥n del modelo**  
   Definimos `n_clusters=3` para que el algoritmo forme tres grupos.  
   - `random_state=42` asegura reproducibilidad.  
   - `n_init=10` indica que se probar√°n varias inicializaciones para elegir la mejor.  

2. **Entrenamiento del modelo**  
   Con `kmeans.fit(X_scaled)`, el algoritmo calcula los **centroides** y asigna cada observaci√≥n a un cluster seg√∫n su distancia al centro m√°s cercano.  

3. **Obtenci√≥n de etiquetas**  
   - `kmeans.labels_` devuelve el n√∫mero de cluster asignado a cada observaci√≥n.  
   - Cada proveedor recibe un valor 0, 1 o 2 seg√∫n el grupo al que pertenezca.  

4. **Incorporaci√≥n al dataset**  
   Se agrega una nueva columna llamada `Cluster` en `data_unsupervised`, que contiene la asignaci√≥n de grupo para cada registro.  

De esta manera, cada proveedor queda clasificado en un cluster generado autom√°ticamente por K-Means, lo que permite analizar patrones ocultos y comparar con las categor√≠as originales si se desea.


In [None]:

# 1. Inicializamos el modelo K-Means
# n_clusters=3 ‚Üí pedimos que el algoritmo forme 3 grupos
# random_state=42 ‚Üí garantiza reproducibilidad
#TODO:

# 2. Entrenamos el modelo con los datos estandarizados
#TODO:

# 3. Obtenemos las etiquetas (clusters asignados por K-Means)
#TODO:

# 4. Agregamos los clusters al dataset para an√°lisis posterior
data_unsupervised["Cluster"] = clusters

# Revisamos las primeras filas con la nueva columna
print(data_unsupervised.head())


##  Visualizaci√≥n de resultados

Una vez que el modelo K-Means ha asignado un cluster a cada proveedor, el siguiente paso es visualizar gr√°ficamente los resultados.  

La visualizaci√≥n nos permite:  
- Entender mejor c√≥mo se distribuyen los grupos en funci√≥n de las variables.  
- Detectar solapamientos o separaciones claras entre clusters.  
- Facilitar la interpretaci√≥n de los patrones que el algoritmo encontr√≥ en los datos.  

A continuaci√≥n, generaremos diferentes gr√°ficos para explorar y comprender la clasificaci√≥n obtenida.


In [None]:
from mpl_toolkits.mplot3d import Axes3D  # necesario para proyecci√≥n 3D

# üé® Definimos colores para cada cluster
colors = plt.cm.turbo(np.linspace(0, 1, len(data_unsupervised["Cluster"].unique())))

# üîπ Creamos el gr√°fico 3D
fig = plt.figure(figsize=(10,7))
ax = fig.add_subplot(111, projection="3d")

# üîπ Dibujamos cada punto seg√∫n su cluster
for cluster_id, color in zip(sorted(data_unsupervised["Cluster"].unique()), colors):
    subset = data_unsupervised[data_unsupervised["Cluster"] == cluster_id]
    ax.scatter(
        subset["Tiempo_entrega_dias"],
        subset["Confiabilidad_entregas"],
        subset["Costos_de_transacci√≥n"],
        s=60, alpha=0.7, c=[color], label=f"Cluster {cluster_id}"
    )

# üéØ Etiquetas de los ejes
ax.set_xlabel("Tiempo de Entrega (d√≠as)")
ax.set_ylabel("Confiabilidad en Entregas")
ax.set_zlabel("Costos de Transacci√≥n")
ax.set_title("Clusters en 3D ‚Äì K-Means")

# Leyenda
ax.legend()
plt.show()


In [None]:

# Pairplot con densidades KDE en la diagonal
#TODO:

plt.suptitle("Relaci√≥n entre variables y Categor√≠a de Proveedor", y=1.02, fontsize=14)
plt.show()

In [None]:
import plotly.express as px

# üé® Creamos un scatter 3D interactivo
fig = px.scatter_3d(
    data_unsupervised,
    x="Tiempo_entrega_dias",
    y="Confiabilidad_entregas",
    z="Costos_de_transacci√≥n",
    color="Cluster",  # coloreado por el cluster asignado
    symbol="Cluster",
    size_max=10,
    opacity=0.7,
    title="Visualizaci√≥n 3D interactiva de Clusters ‚Äì K-Means"
)

# Mostrar el gr√°fico
fig.show()


In [None]:
# Configuraci√≥n de estilo
sns.set(style="whitegrid")

# Variables num√©ricas
variables = data_unsupervised.columns.to_list()
variables.remove("Cluster")

# Crear grid de 2x2
fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# Iterar sobre las variables y ejes
for var, ax in zip(variables, axes.flatten()):
    sns.boxplot(data=data_unsupervised, x="Cluster", y=var, ax=ax, palette="Set2")
    ax.set_title(f"{var} vs Cluster", fontsize=12)
    ax.set_xlabel("Cluster")
    ax.set_ylabel(var)

plt.tight_layout()
plt.show()

##  Evaluaci√≥n del clustering con etiquetas reales

Aunque el objetivo de **K-Means** es agrupar sin necesidad de etiquetas, en este caso contamos con la columna `categoria_proveedor`, lo que nos permite comparar los clusters encontrados con las categor√≠as originales.  

### Pasos realizados

1. **Creaci√≥n del DataFrame de evaluaci√≥n**  
   Se genera `Data_evaluacion`, que contiene los datos originales, la columna de clusters (`Cluster`) y la etiqueta real (`categoria_proveedor`).  

2. **Definici√≥n de variables**  
   - `y_true`: categor√≠as reales de los proveedores.  
   - `y_pred`: clusters asignados por K-Means.  

3. **C√°lculo de m√©tricas externas**  
   - **Adjusted Rand Index (ARI):** mide similitud entre clustering y etiquetas reales, ajustado por azar (1 = perfecta coincidencia, 0 = aleatorio).  
   - **Normalized Mutual Information (NMI):** mide la informaci√≥n compartida entre etiquetas y clusters (1 = m√°xima correspondencia).  
   - **V-Measure:** balance entre homogeneidad (cada cluster contiene solo una clase) y completitud (todos los miembros de una clase est√°n en el mismo cluster).  




In [None]:

# 1. Creamos el nuevo DataFrame de evaluaci√≥n
Data_evaluacion = data_unsupervised.copy()
Data_evaluacion["categoria_proveedor"] = data["categoria_proveedor"]

# 2. Variables para comparar
y_true = Data_evaluacion["categoria_proveedor"]   # etiquetas reales
y_pred = Data_evaluacion["Cluster"]              # clusters asignados por K-Means

# 3. C√°lculo de m√©tricas
ari = adjusted_rand_score(y_true, y_pred)
nmi = normalized_mutual_info_score(y_true, y_pred)
vmeasure = v_measure_score(y_true, y_pred)

# 4. Resultados
print(" Evaluaci√≥n de Clustering con etiquetas reales:")
print(f"Adjusted Rand Index (ARI): {ari:.3f}")
print(f"Normalized Mutual Information (NMI): {nmi:.3f}")
print(f"V-Measure: {vmeasure:.3f}")

# ‚úÖ Revisamos el DataFrame resultante
Data_evaluacion.head()


In [None]:


#  Matriz de contingencia: relaci√≥n entre etiquetas reales y clusters
contingencia = pd.crosstab(Data_evaluacion["categoria_proveedor"], Data_evaluacion["Cluster"])

# üìä Heatmap para visualizar
plt.figure(figsize=(8,6))
sns.heatmap(contingencia, annot=True, fmt="d", cmap="Blues")

plt.title("Comparaci√≥n: Etiquetas Reales vs Clusters K-Means")
plt.xlabel("Cluster asignado por el modelo")
plt.ylabel("Categor√≠a de proveedor real")
plt.show()
