In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
import warnings
warnings.filterwarnings("ignore", category=pd.errors.SettingWithCopyWarning)

## Importar y transformar datos reales

In [3]:
df_read = pd.read_excel('../01 - Datos bruto/07.24-11.24.xlsx')

In [4]:
df = df_read

In [5]:
#Eliminar duplicados
df = df.drop_duplicates()

In [6]:
#Renombrar columnas
columnas = ['nodos','fecha', 'hora', 'scanner', 'codigo', 'unidad_manipulac', 'entrega', 'posicion', 'doc_ventas', 'posicion2', 'material', 'denominacion']
df = df.set_axis(columnas, axis = 1)

In [7]:
#Eliminar espacios antes y despues de strings
columns_to_strip = ['material', 'denominacion']
for col in columns_to_strip:
    df[col] = df[col].astype(str).str.strip()

In [8]:
#Combinar fechas históricas y archivadas
df = df.reset_index(drop=True)
df['fecha'] = pd.to_datetime(df['fecha'].str.strip(), format='%d.%m.%Y', errors='coerce')

In [9]:
#Combianr horas históricas y archivadas
df = df.reset_index(drop=True)
df['hora'] = df['hora'].astype(str)
df['hora'] = pd.to_timedelta(df['hora'].str.strip(), errors='coerce')

In [10]:
#Calcular el turno donde se ha escaneado el producto
def calcular_turno(row):
    if row['hora'] >= pd.to_timedelta('01:00:00') and row['hora'] <= pd.to_timedelta('15:15:00'):
        return 1
    else:
        return 2
    
df['turno'] = df.apply(calcular_turno, axis=1)

In [11]:
#Calcular mes y año
df['mes'] = df['fecha'].dt.month
df['year'] = df['fecha'].dt.year

In [12]:
#Filtrar la linea de volúmenes y bloques
df_vols = df[(df['scanner'] == 'SAPRFMADR16') | (df['scanner'] == 'SAPRFMADR15')]

In [13]:
# Calculamr diferencia de tiempos entre piezas
df_vols['delta'] = df_vols['hora'].diff().dt.total_seconds()

In [14]:
# Agregamos estado que represente si la pieza se ha producido tras un cambio de producto.
df_vols['cambio'] = (df_vols['material'] != df_vols['material'].shift()).astype(int)

# Añadimos un estado que represente pausas de > 10 mins
df_vols['pausa'] = ((df_vols['delta'] > 600) | (df_vols['delta'] < 0)).astype(int)

In [15]:
df_vols_takt_filtr_agrup = pd.read_csv('./dataframes/df_vols_takt_filtr_agrup.csv')

In [16]:
df_vols_takt_filtr_agrup

Unnamed: 0.1,Unnamed: 0,denominacion,media_takt,dev_std,fabricados
0,205,BLQ IMPL 785/786,84.325797,66.382879,38527
1,64,ARM US3 PTA PERS,91.192752,58.221678,22075
2,219,BLQ VA 332/432 C/R 9/10/13 UN,84.943343,61.661339,5295
3,60,ARM US3 PTA BAT MET,102.445445,57.523491,4665
4,282,ESTA RECI 850X1000X450 SERI C/SUJ BOLSA,86.725952,49.005807,3992
...,...,...,...,...,...
639,315,Jard lami 210 x 1600 p450,4.000000,,1
640,65,ARM US3 ROP PB LAM 1980X1200 C/TABL,68.000000,,1
641,506,TAQ UV 3C+LIB 3P ME-DMDL 1645X1200 C/T,161.000000,,1
642,142,Arm mixt pb mad 1500 x 1000 3 ent c/tabl,144.000000,,1


In [17]:
# Agrupar por fecha y denominación, y calcular la cantidad fabricada
df_vols_productos_dia = (
    df_vols.groupby(['fecha', 'denominacion'])['nodos']
    .count()
    .reset_index(name='cantidad_fabricada')
)

# Unir con el DataFrame de Takt Time filtrado para añadir el takt time de cada producto
df_vols_productos_dia = df_vols_productos_dia.merge(
    df_vols_takt_filtr_agrup[['denominacion', 'media_takt']], 
    on='denominacion'
)

# Calcular el tiempo de trabajo para cada producto
df_vols_productos_dia['tiempo_trabajo'] = (
    df_vols_productos_dia['cantidad_fabricada'] * df_vols_productos_dia['media_takt']
)

In [18]:
df_vols_trabajo_diario = df_vols_productos_dia.groupby(by='fecha').sum().reset_index()[['fecha', 'cantidad_fabricada', 'tiempo_trabajo']]
df_vols_trabajo_diario['tiempo_trabajo_horas'] = df_vols_trabajo_diario['tiempo_trabajo'] / 3600
df_vols_trabajo_diario['semana'] = df_vols_trabajo_diario['fecha'].dt.strftime('%Y-%U')
df_vols_trabajo_diario

Unnamed: 0,fecha,cantidad_fabricada,tiempo_trabajo,tiempo_trabajo_horas,semana
0,2024-07-22,182,17827.965618,4.952213,2024-29
1,2024-07-23,169,19417.094122,5.393637,2024-29
2,2024-07-24,179,18145.905185,5.040529,2024-29
3,2024-07-29,148,16252.484498,4.514579,2024-30
4,2024-07-30,195,18478.110766,5.132809,2024-30
...,...,...,...,...,...
64,2024-11-04,73,7819.435825,2.172066,2024-44
65,2024-11-05,82,7913.450615,2.198181,2024-44
66,2024-11-06,173,17895.131725,4.970870,2024-44
67,2024-11-07,139,12953.749885,3.598264,2024-44


In [19]:
df_vols_trabajo_diario.head(20)

Unnamed: 0,fecha,cantidad_fabricada,tiempo_trabajo,tiempo_trabajo_horas,semana
0,2024-07-22,182,17827.965618,4.952213,2024-29
1,2024-07-23,169,19417.094122,5.393637,2024-29
2,2024-07-24,179,18145.905185,5.040529,2024-29
3,2024-07-29,148,16252.484498,4.514579,2024-30
4,2024-07-30,195,18478.110766,5.132809,2024-30
5,2024-07-31,177,18697.680201,5.1938,2024-30
6,2024-08-01,237,24316.201113,6.7545,2024-30
7,2024-08-02,216,25755.276953,7.154244,2024-30
8,2024-08-05,156,14744.364237,4.095657,2024-31
9,2024-08-06,132,13975.612399,3.882115,2024-31


In [20]:
#Estudiar por semanas Y rellenar faltantes
df_vols_trabajo_semanal = df_vols_trabajo_diario.drop('fecha', axis = 1).groupby(by = 'semana').sum().reset_index()

def semana_a_fecha(semana_str):
    year, week = map(int, semana_str.split('-'))
    # Crear una fecha base el primer día del año
    first_day_of_year = pd.Timestamp(year=year, month=1, day=1)
    # Calcular la fecha del primer día de la semana específica
    return first_day_of_year + pd.to_timedelta(week * 7 - first_day_of_year.dayofweek, unit='D')

df_vols_trabajo_semanal['semana_primer_dia'] = df_vols_trabajo_semanal['semana'].apply(semana_a_fecha)

In [21]:
df_vols_trabajo_semanal

Unnamed: 0,semana,cantidad_fabricada,tiempo_trabajo,tiempo_trabajo_horas,semana_primer_dia
0,2024-29,530,55390.964925,15.386379,2024-07-22
1,2024-30,973,103499.75353,28.749932,2024-07-29
2,2024-31,528,56620.318157,15.727866,2024-08-05
3,2024-34,417,42290.94554,11.747485,2024-08-26
4,2024-35,1052,112048.898926,31.124694,2024-09-02
5,2024-36,842,91861.381472,25.51705,2024-09-09
6,2024-37,977,99047.666902,27.513241,2024-09-16
7,2024-38,1194,118468.734344,32.907982,2024-09-23
8,2024-39,853,98489.396946,27.358166,2024-09-30
9,2024-40,1358,138720.240518,38.5334,2024-10-07


In [22]:
#Rellenar semanas faltantes
semana_min = df_vols_trabajo_semanal['semana_primer_dia'].min()
semana_max = df_vols_trabajo_semanal['semana_primer_dia'].max()
todas_las_semanas = pd.date_range(semana_min, semana_max, freq='W-MON')
df_todas_las_semanas = pd.DataFrame({'semana_primer_dia': todas_las_semanas})
df_completo = pd.merge(df_todas_las_semanas, df_vols_trabajo_semanal, on='semana_primer_dia', how='left')
df_completo['cantidad_fabricada'].fillna(0, inplace=True)
df_completo['tiempo_trabajo'].fillna(0, inplace=True)
df_completo['tiempo_trabajo_horas'].fillna(0, inplace=True)
df_completo['semana'] = df_completo['semana_primer_dia'].dt.isocalendar().week.astype(str) + "-" + df_completo['semana_primer_dia'].dt.year.astype(str)
df_vols_trabajo_semanal_futuro_real = df_completo

In [23]:
y_real = df_vols_trabajo_semanal_futuro_real[['semana_primer_dia', 'tiempo_trabajo_horas']]
y_real = y_real.rename(columns={'semana_primer_dia': 'ds', 'tiempo_trabajo_horas': 'y'})

In [24]:
y_real.to_excel('./predictions/y_real.xlsx')