In [1]:
# Instalación de librerías requeridas
%pip install sqlalchemy
%pip install psycopg2
%pip install psycopg2-binary
%pip install scikit-learn
%pip install pandas

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Collecting scikit-learn
  Downloading scikit_learn-1.7.0-cp312-cp312-win_amd64.whl.metadata (14 kB)
Collecting scipy>=1.8.0 (from scikit-learn)
  Downloading scipy-1.15.3-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.5.1-py3-none-any.whl.metadata (5.6 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.7.0-cp312-cp312-win_amd64.whl (10.7 MB)
   ---------------------------------------- 0.0/10.7 MB ? eta -:--:--
   ----------------------- ---------------- 6.3/10.7 MB 32.2 MB/s eta 0:00:01
   ---------------------------------------- 10.7/10.7 MB 31.7 MB/s eta 0:00:00
Downloading joblib-1.5.1-py3-none-any.whl (307 kB)
Downloading scip

In [2]:
import pandas as pd
import yaml
from sqlalchemy import create_engine
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans


In [3]:
with open('../../configBD/config.yml', 'r') as f:
    config      = yaml.safe_load(f)
    config_etl  = config['bodega']
    config_bd   = config['mensajeria']
config_etl      # solo para verificar


{'driver': 'postgresql+psycopg2',
 'host': 'proyectobodega.postgres.database.azure.com',
 'port': 5432,
 'user': 'adminbodega',
 'password': 'Goddess9039#',
 'db': 'proyectobodega'}

In [4]:
url_bd = (
    f"{config_bd['driver']}://{config_bd['user']}:{config_bd['password']}@"
    f"{config_bd['host']}:{config_bd['port']}/{config_bd['db']}"
)
url_bd


'postgresql://postgres:root@localhost:5432/mensajeria'

In [5]:
url_etl = (
    f"{config_etl['driver']}://{config_etl['user']}:{config_etl['password']}@"
    f"{config_etl['host']}:{config_etl['port']}/{config_etl['db']}"
)
url_etl


'postgresql+psycopg2://adminbodega:Goddess9039#@proyectobodega.postgres.database.azure.com:5432/proyectobodega'

In [6]:
cliente_bd  = create_engine(url_bd)   # fuente operativa
cliente_etl = create_engine(url_etl)  # data-warehouse / ETL


In [None]:
dim_tiempo = pd.read_sql_table('dim_tiempo', url_etl)

dim_tiempo = dim_tiempo.rename(columns={"Año":"year", "Mes":"month", "Dia":"day"})
dim_tiempo['date'] = pd.to_datetime(dim_tiempo[['year','month','day']]).dt.date
dim_tiempo.head()


Unnamed: 0,tiempo_key,year,month,day,Hora,date
0,0,2023,1,1,0,2023-01-01
1,1,2023,1,1,1,2023-01-01
2,2,2023,1,1,2,2023-01-01
3,3,2023,1,1,3,2023-01-01
4,4,2023,1,1,4,2023-01-01


In [8]:
novedades = pd.read_sql_table('mensajeria_novedadesservicio', url_bd)


In [9]:
novedades['fecha_novedad'] = pd.to_datetime(novedades['fecha_novedad']).dt.date


In [10]:
print("Rango de fechas en dim_tiempo:", dim_tiempo['date'].min(), "→", dim_tiempo['date'].max())
print("Rango de fechas en novedades:", novedades['fecha_novedad'].min(), "→", novedades['fecha_novedad'].max())


Rango de fechas en dim_tiempo: 2023-01-01 → 2023-12-31
Rango de fechas en novedades: 2023-11-30 → 2024-08-31


In [11]:
# lista corta de stop-words en español
stop_words_spanish = [
    'el','la','los','las','de','del','un','una','por','para','con','sin',
    'y','o','en','que','no','se','a','al','me','lo','este','esto','estas'
]

# 1) limpiar texto
novedades['descripcion_limpia'] = novedades['descripcion'].fillna('').str.lower()

# 2) vectorizar TF-IDF
tfidf = TfidfVectorizer(stop_words=stop_words_spanish, max_features=1000)
X     = tfidf.fit_transform(novedades['descripcion_limpia'])

# 3) K-means
num_clusters = 5
kmeans = KMeans(n_clusters=num_clusters, random_state=42, n_init='auto')
novedades['cluster'] = kmeans.fit_predict(X)

# 4) mapear cluster → categoría
cluster_names = {0:'problemas_tecnicos', 1:'reprogramaciones', 2:'esperas',
                 3:'entregas', 4:'otros'}
novedades['categoria'] = novedades['cluster'].map(cluster_names)


In [12]:
# 1) agrupar por fecha_novedad + categoría
novedades_agrupadas = (
    novedades.groupby(['fecha_novedad','categoria'])
             .size()
             .unstack(fill_value=0)
             .reset_index()
)

# 2) añadir clave de tiempo
novedades_agrupadas = novedades_agrupadas.merge(
    dim_tiempo[['tiempo_key','date']],
    left_on='fecha_novedad', right_on='date', how='left'
).rename(columns={'tiempo_key':'TiempoKey'}).drop(columns=['date'])

# 3) guarda en Data Warehouse
novedades_agrupadas.to_sql('fact_novedades_clustering',
                           cliente_etl,
                           if_exists='replace',
                           index=False)

# 4) opcional: exportar CSV
# novedades_agrupadas.to_csv('novedades_agrupadas_clustering.csv', index=False)

novedades_agrupadas.head()


Unnamed: 0,fecha_novedad,entregas,esperas,otros,problemas_tecnicos,reprogramaciones,TiempoKey
0,2023-11-30,0,0,9,0,0,7992.0
1,2023-11-30,0,0,9,0,0,7993.0
2,2023-11-30,0,0,9,0,0,7994.0
3,2023-11-30,0,0,9,0,0,7995.0
4,2023-11-30,0,0,9,0,0,7996.0
