In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
import warnings
warnings.filterwarnings("ignore", category=pd.errors.SettingWithCopyWarning)

In [3]:
#Importar datos
dfA = pd.read_excel('../01 - Datos bruto/01.21-12.22.xlsx')
dfB = pd.read_excel('../01 - Datos bruto/12.22-12.23.xlsx')
dfC = pd.read_excel('../01 - Datos bruto/12.23-07.24.xlsx')


KeyboardInterrupt



## 1: Limpieza y preparación del Dataset

In [None]:
#Concatenar
df = pd.concat([dfA, dfB, dfC])

In [None]:
#Checkear duplicados
df.duplicated().sum()

In [None]:
#Eliminar duplicados
df = df.drop_duplicates()

In [None]:
#Renombrar columnas
columnas = ['nodos','fecha_arch', 'hora_arch', 'scanner', 'codigo', 'unidad_manipulac', 'entrega', 'posicion', 'doc_ventas', 'posicion2', 'material', 'denominacion', 'fecha_hist', 'hora_hist']
df = df.set_axis(columnas, axis = 1)

In [None]:
#Eliminar espacios antes y despues de strings
columns_to_strip = ['material', 'denominacion']
for col in columns_to_strip:
    df[col] = df[col].astype(str).str.strip()

In [None]:
#Combinar fechas históricas y archivadas
df = df.reset_index(drop=True)
df['fecha_arch'] = pd.to_datetime(df['fecha_arch'].str.strip(), format='%d.%m.%Y', errors='coerce')
df['fecha_hist'] = pd.to_datetime(df['fecha_hist'].str.strip(), format='%d.%m.%Y', errors='coerce')
df['fecha'] = df['fecha_arch'].combine_first(df['fecha_hist'])

In [None]:
#Combianr horas históricas y archivadas
df = df.reset_index(drop=True)
df['hora_arch'] = df['hora_arch'].astype(str)
df['hora_hist'] = df['hora_hist'].astype(str)
df['hora_arch'] = pd.to_timedelta(df['hora_arch'].str.strip(), errors='coerce')
df['hora_hist'] = pd.to_timedelta(df['hora_hist'].str.strip(), errors='coerce')
df['hora'] = df['hora_arch'].combine_first(df['hora_hist'])

In [None]:
#Eliminar fechas y horas previas a la combinación
df = df.drop(['fecha_arch', 'hora_arch', 'fecha_hist', 'hora_hist'], axis = 1)

In [None]:
#Calcular el turno donde se ha escaneado el producto
def calcular_turno(row):
    if row['hora'] >= pd.to_timedelta('01:00:00') and row['hora'] <= pd.to_timedelta('15:15:00'):
        return 1
    else:
        return 2
    
df['turno'] = df.apply(calcular_turno, axis=1)

In [None]:
#Calcular mes y año
df['mes'] = df['fecha'].dt.month
df['year'] = df['fecha'].dt.year

## 2: EDA DE LA PLANTA

In [None]:
#Filtrar escáneres relevantes
scanners = ['SAPRFMADR26', 'SAPRFMADR20', 'SAPRFMADR23', 'SAPRFMADR16', 'SAPRFMADR19', 'SAPRFMADR21', 'SAPRFMADR17', 'SAPRFMADR18', 'SAPRFMADR15', 'SAPRFMADR24', 'SAPRFMADR25']
df = df[df['scanner'].isin(scanners)]

In [None]:
#Cantidad de referencias fabricadas por cada scanner:
sns.barplot(data = df.groupby('scanner').agg({'nodos': 'count' }).sort_values(by = 'nodos', ascending = False), x='scanner', y='nodos' )
plt.xticks(rotation = 90)
plt.ylabel('Productos fabricados')
plt.show()

#SAPRFMADR26 = Mesas
#SAPRFMADR20 = Paneles
#SAPRFMADR23 = Tableros
#SAPRFMADR16 = Volumenes
#SAPRFMADR19 = Conectores
#SAPRFMADR21 = Varios
#SAPRFMADR17 = Silla DO
#SAPRFMADR18 = Pie Ajustable
#SAPRFMADR15 = Bloques
#SAPRFMADR24 = Carpinteria otros
#SAPRFMADR25 = Partito Rail

In [None]:
sns.lineplot(data = df.groupby(['mes', 'year']).agg({'nodos': 'count'}), x= 'mes', y= 'nodos', hue = 'year')
plt.xticks(ticks=range(1, 13), labels=['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])
plt.ylabel('Productos fabricados')
plt.show()

## 2: EDA DE LA LÍNEA DE LINEA VOLÚMENES Y BLOQUES (SAPRFMADR15 + SAPRFMADR16)

In [None]:
#Filtrar la linea de volúmenes y bloques
df_vols = df[(df['scanner'] == 'SAPRFMADR16') | (df['scanner'] == 'SAPRFMADR15')]

In [None]:
# Calculamr diferencia de tiempos entre piezas
df_vols['delta'] = df_vols['hora'].diff().dt.total_seconds()

In [None]:
# Agregamos estado que represente si la pieza se ha producido tras un cambio de producto.
df_vols['cambio'] = (df_vols['material'] != df_vols['material'].shift()).astype(int)

# Añadimos un estado que represente pausas de > 10 mins
df_vols['pausa'] = ((df_vols['delta'] > 600) | (df_vols['delta'] < 0)).astype(int)

### Estudiar Takt Times

In [None]:
# Estudiamos Takt Times de los volumenes filtrando los que se han hecho tras una pausa y tras cambio de producto.
# Estudiamos Takt Times en turno 1 ya que la mano de obra es aproximádamente constante

df_vols_takt_filtr = df_vols[(df_vols['cambio'] == 0) & (df_vols['pausa'] == 0) & (df_vols['turno'] == 1)]

df_vols_takt_filtr_agrup = df_vols_takt_filtr.groupby(
    ['denominacion']
).agg({'delta' : ['mean', 'std', 'count']}).reset_index()

df_vols_takt_filtr_agrup.columns = ['denominacion', 'media_takt', 'dev_std', 'fabricados']
df_vols_takt_filtr_agrup = df_vols_takt_filtr_agrup.sort_values(by = 'fabricados', ascending= False)

In [None]:
#Tabla con productos mas fabricados, desviación estandar y Takt Time
df_vols_takt_filtr_agrup

In [None]:
#Se observa Paretto claro en referencias fabricadas
sns.barplot(data = df_vols_takt_filtr_agrup.head(20), x= 'fabricados', y= 'denominacion')
plt.xlabel('Productos fabricados enero 2021- Julio 2024')
plt.show()

In [None]:
sns.histplot(data = df_vols_takt_filtr_agrup, x= 'media_takt')
plt.xlabel('Takt Time medio')
plt.ylabel('Cantidad de productos')

### Estudiar productos fabricados cada dia

In [None]:
# Agrupar por fecha y denominación, y calcular la cantidad fabricada
df_vols_productos_dia = (
    df_vols.groupby(['fecha', 'denominacion'])['nodos']
    .count()
    .reset_index(name='cantidad_fabricada')
)

# Unir con el DataFrame de Takt Time filtrado para añadir el takt time de cada producto
df_vols_productos_dia = df_vols_productos_dia.merge(
    df_vols_takt_filtr_agrup[['denominacion', 'media_takt']], 
    on='denominacion'
)

# Calcular el tiempo de trabajo para cada producto
df_vols_productos_dia['tiempo_trabajo'] = (
    df_vols_productos_dia['cantidad_fabricada'] * df_vols_productos_dia['media_takt']
)

In [None]:
df_vols_trabajo_diario = df_vols_productos_dia.groupby(by='fecha').sum().reset_index()[['fecha', 'cantidad_fabricada', 'tiempo_trabajo']]
df_vols_trabajo_diario['tiempo_trabajo_horas'] = df_vols_trabajo_diario['tiempo_trabajo'] / 3600
df_vols_trabajo_diario['semana'] = df_vols_trabajo_diario['fecha'].dt.strftime('%Y-%U')
df_vols_trabajo_diario

In [None]:
#Trabajo diario, serie muy caótica, dias de la semana aportan poco valor a nivel industrial
dims = (15, 7)
fig, ax = plt.subplots(figsize=dims)
ax.set_ylim(0, 16)
sns.lineplot(data = df_vols_trabajo_diario, x= 'fecha', y= 'tiempo_trabajo_horas')
plt.ylabel('Horas de trabajo diarias')

### Estudiar productos fabricados cada semana

In [None]:
#Estudiar por semanas Y rellenar faltantes
df_vols_trabajo_semanal = df_vols_trabajo_diario.drop('fecha', axis = 1).groupby(by = 'semana').sum().reset_index()

def semana_a_fecha(semana_str):
    year, week = map(int, semana_str.split('-'))
    # Crear una fecha base el primer día del año
    first_day_of_year = pd.Timestamp(year=year, month=1, day=1)
    # Calcular la fecha del primer día de la semana específica
    return first_day_of_year + pd.to_timedelta(week * 7 - first_day_of_year.dayofweek, unit='D')

df_vols_trabajo_semanal['semana_primer_dia'] = df_vols_trabajo_semanal['semana'].apply(semana_a_fecha)

In [None]:
#Rellenar semanas faltantes
semana_min = df_vols_trabajo_semanal['semana_primer_dia'].min()
semana_max = df_vols_trabajo_semanal['semana_primer_dia'].max()
todas_las_semanas = pd.date_range(semana_min, semana_max, freq='W-MON')
df_todas_las_semanas = pd.DataFrame({'semana_primer_dia': todas_las_semanas})
df_completo = pd.merge(df_todas_las_semanas, df_vols_trabajo_semanal, on='semana_primer_dia', how='left')
df_completo['cantidad_fabricada'].fillna(0, inplace=True)
df_completo['tiempo_trabajo'].fillna(0, inplace=True)
df_completo['tiempo_trabajo_horas'].fillna(0, inplace=True)
df_completo['semana'] = df_completo['semana_primer_dia'].dt.isocalendar().week.astype(str) + "-" + df_completo['semana_primer_dia'].dt.year.astype(str)
df_completo.to_excel('trabajo_semanal.xlsx')
df_vols_trabajo_semanal = df_completo

In [None]:
df_vols_trabajo_semanal

In [None]:
#Trabajo Semanal en cantidad de productos 
dims = (20, 7)
fig, ax = plt.subplots(figsize=dims)
ax.set_ylim(0, 2000)
plt.xticks(rotation=90)
sns.lineplot(data = df_vols_trabajo_semanal, x= 'semana_primer_dia', y= 'cantidad_fabricada')

In [None]:
#Trabajo Semanal en Horas 
dims = (20, 7)
fig, ax = plt.subplots(figsize=dims)
ax.set_ylim(0, 55)
plt.xticks(rotation=90)
sns.lineplot(data = df_vols_trabajo_semanal, x= 'semana_primer_dia', y= 'tiempo_trabajo_horas')

In [None]:
#Exportar Dataframe para usarlo como punto de partida en resto del proyecto
df_vols_trabajo_semanal.to_excel('./dataframes/df_vols_trabajo_semanal.xlsx')