<center><h1> ToMakeUp</h1></center>

<center><h3>Preprocesamiento de datos</h3></center>

El objetivo de este notebook es procesar los datos oríginales del proyecto, para convertirlos en un dataset que en vez de utilizar la proporción de componentes, agrupe estos componentes en grupos funcionales, y utilice la proporción de estos grupos funcionales.

Definimos los siguientes grupos funcionales.

| Grupo funcional | 
| --- | 
| Colorante | 
| Excipiente | 
| Emulsionante | 
| Agua | 

#### Importamos las librerías necesarias

In [48]:
import pandas as pd

pd.set_option('display.max_columns', None)

#### Preprocesamiento de datos

In [49]:
# Importamos los datos de los desgloses de tintes
tintes_df = pd.read_excel('original_data/desgloses tintes.xlsx')

In [50]:
tintes_df.head()

Unnamed: 0,Material,Componente,Texto breve del objeto,Cantidad componente
0,620025,111003,ACIDO ASCORBICO,0.5
1,620025,111020,AMONIACO 25%,0.1
2,620025,111940,NATRLQUEST E 30,3.0
3,620025,111103,TRANSCUTOL CG,15.0
4,620025,111117,AGUA DESIONIZADA,663.0


In [51]:
# Compruebo las combinaciones únicas de los campos `Componente`y `Texto breve del objeto`. seleccionamos los índices en un nuevo dataframe
componentes_df = tintes_df.groupby(['Componente', 'Texto breve del objeto']).size().reset_index().rename(columns={0:'count'})
componentes_df

Unnamed: 0,Componente,Texto breve del objeto,count
0,111003,ACIDO ASCORBICO,128
1,111020,AMONIACO 25%,133
2,111042,*Z6*DABEERSEN-503 / DISSOLVINE D-40,1
3,111095,PROPILENGLICOL,6
4,111103,TRANSCUTOL CG,128
5,111112,LOWACRYL ORANGE-31,3
6,111113,*Z6 VIBRACOLOR CITRUS YELLOW,1
7,111114,ARIANOR CHERRY RED/VIBRACOLOR RUBY RED,4
8,111117,AGUA DESIONIZADA,134
9,111151,MERQUAT 280/ SAFIQUAT-22,129


Tenemos 49 componentes diferentes, que hemos de clasificar en los grupos funcionales

In [52]:
# Guardo los componentes en un archivo csv
componentes_df.to_csv('original_data/componentes.csv', index=False)

In [53]:
componentes_df["Texto breve del objeto"].unique()

array(['ACIDO ASCORBICO', 'AMONIACO 25%',
       '*Z6*DABEERSEN-503 / DISSOLVINE D-40', 'PROPILENGLICOL',
       'TRANSCUTOL CG', 'LOWACRYL ORANGE-31',
       '*Z6 VIBRACOLOR  CITRUS YELLOW',
       'ARIANOR CHERRY RED/VIBRACOLOR RUBY RED', 'AGUA DESIONIZADA',
       'MERQUAT 280/ SAFIQUAT-22', 'SODIO SULFITO ANHIDRO',
       'CIRE DE LANOL/SINNOWAX AO', 'NAFOL 16-18/LANETTE O',
       'CERA DE ABEJAS-BEEWAX', 'GENENCARE OSMS BA/BETAFIN BP',
       'MONOETANOLAMINA 99 % PURETE', 'VASELINA FILANTE NZ41-EM',
       'RODOL RS /JAROCOL RL', 'RODOL P BASE (OT)',
       'RODOL EG /JAROCOL MAP', '*Z6 COLORANTE PTD',
       'RODOL 6AMC/CHEMATEK 00269', 'COLORANTE 2A3HP',
       'RODOL PAOC/CHEMATEK-00216', 'RODOL BLFX/-BONDECOLOR BLFX',
       'RODOL ERN /COLOREX 1 NAP', 'RODOL 24DAPE/CHEMATEK 00326',
       'RODOL  PMP/JAROCOL PMP', 'RODOL GRAY HED / JAROCOL BHP',
       'RODOL 9R', 'H.C. YELLOW 4', 'RODOL 2 MR/CHEMATEK CODE 00102',
       'RODOL PAOX/COLOREX PAOX', 'RODOL 6CP/CHEMATEK-00235'

He editado el archivo de componentes y he creado una copia añadiendo el grupo funcional al que pertenece cada componente.

In [54]:
componentes_gf_df = pd.read_csv('original_data/componentes_grupos_funcionales.csv')

In [55]:
componentes_gf_df.head()

Unnamed: 0,Componente,Texto breve del objeto,count,tipo
0,111003,ACIDO ASCORBICO,128,excipiente
1,111020,AMONIACO 25%,133,excipiente
2,111042,*Z6*DABEERSEN-503 / DISSOLVINE D-40,1,colorante
3,111095,PROPILENGLICOL,6,excipiente
4,111103,TRANSCUTOL CG,128,excipiente


In [56]:
# Unimos los dos dataframes por el campo `Componente`
tintes_df = tintes_df.merge(componentes_gf_df, on='Componente', how='left')

In [57]:
tintes_df.head()

Unnamed: 0,Material,Componente,Texto breve del objeto_x,Cantidad componente,Texto breve del objeto_y,count,tipo
0,620025,111003,ACIDO ASCORBICO,0.5,ACIDO ASCORBICO,128,excipiente
1,620025,111020,AMONIACO 25%,0.1,AMONIACO 25%,133,excipiente
2,620025,111940,NATRLQUEST E 30,3.0,NATRLQUEST E 30,133,excipiente
3,620025,111103,TRANSCUTOL CG,15.0,TRANSCUTOL CG,128,excipiente
4,620025,111117,AGUA DESIONIZADA,663.0,AGUA DESIONIZADA,134,agua


In [58]:
tintes_df.head(10)

Unnamed: 0,Material,Componente,Texto breve del objeto_x,Cantidad componente,Texto breve del objeto_y,count,tipo
0,620025,111003,ACIDO ASCORBICO,0.5,ACIDO ASCORBICO,128,excipiente
1,620025,111020,AMONIACO 25%,0.1,AMONIACO 25%,133,excipiente
2,620025,111940,NATRLQUEST E 30,3.0,NATRLQUEST E 30,133,excipiente
3,620025,111103,TRANSCUTOL CG,15.0,TRANSCUTOL CG,128,excipiente
4,620025,111117,AGUA DESIONIZADA,663.0,AGUA DESIONIZADA,134,agua
5,620025,111151,MERQUAT 280/ SAFIQUAT-22,25.0,MERQUAT 280/ SAFIQUAT-22,129,excipiente
6,620025,111153,SODIO SULFITO ANHIDRO,1.0,SODIO SULFITO ANHIDRO,107,excipiente
7,620025,111160,CIRE DE LANOL/SINNOWAX AO,160.0,CIRE DE LANOL/SINNOWAX AO,134,emulsionante
8,620025,111161,NAFOL 16-18/LANETTE O,10.0,NAFOL 16-18/LANETTE O,117,emulsionante
9,620025,111501,RODOL RS /JAROCOL RL,0.3,RODOL RS /JAROCOL RL,58,colorante


In [59]:
# Agrupamos por material y tipo de componente, sumamos la cantidad y renombramos la columna
tintes_gf_df = tintes_df.groupby(['Material', 'tipo'])['Cantidad componente'].sum().reset_index().rename(columns={'Cantidad componente':'Cantidad total'})

In [60]:
tintes_gf_df.head()

Unnamed: 0,Material,tipo,Cantidad total
0,620005,agua,762.5
1,620005,colorante,2.5
2,620005,emulsionante,170.0
3,620005,excipiente,65.0
4,620025,agua,663.0


In [61]:
tintes_df['Material'].unique()

array([620025, 620105, 620205, 620305, 620315, 620405, 620505, 620705,
       620945, 620955, 620995, 621005, 621055, 621705, 622075, 623005,
       623225, 623525, 624005, 624085, 624455, 624505, 624605, 625005,
       625065, 625085, 625135, 625175, 625225, 625285, 625305, 625365,
       625445, 625505, 625525, 625555, 625595, 625645, 626005, 626065,
       626085, 626135, 626175, 626205, 626305, 626405, 626445, 626455,
       626495, 626555, 626575, 626585, 626595, 626605, 626615, 626655,
       626665, 627005, 627065, 627085, 627135, 627175, 627305, 627325,
       627335, 627345, 627365, 627435, 627445, 627455, 627465, 627485,
       627495, 627505, 627595, 627605, 627615, 627645, 627655, 627665,
       628005, 628065, 628085, 628135, 628175, 628205, 628305, 628345,
       628405, 628445, 628495, 628605, 628645, 628815, 628825, 628835,
       629005, 629065, 629085, 629225, 629305, 629325, 629335, 629345,
       629605, 629635, 629805, 629825, 629835, 629845, 629865, 629875,
      

In [62]:
tintes_df[tintes_df['Material'] == 626665]

Unnamed: 0,Material,Componente,Texto breve del objeto_x,Cantidad componente,Texto breve del objeto_y,count,tipo
1065,626665,111003,ACIDO ASCORBICO,4.0,ACIDO ASCORBICO,128,excipiente
1066,626665,111020,AMONIACO 25%,71.862,AMONIACO 25%,133,excipiente
1067,626665,111940,NATRLQUEST E 30,3.0,NATRLQUEST E 30,133,excipiente
1068,626665,111103,TRANSCUTOL CG,50.0,TRANSCUTOL CG,128,excipiente
1069,626665,111117,AGUA DESIONIZADA,488.638,AGUA DESIONIZADA,134,agua
1070,626665,111151,MERQUAT 280/ SAFIQUAT-22,25.0,MERQUAT 280/ SAFIQUAT-22,129,excipiente
1071,626665,111153,SODIO SULFITO ANHIDRO,10.0,SODIO SULFITO ANHIDRO,107,excipiente
1072,626665,111160,CIRE DE LANOL/SINNOWAX AO,200.0,CIRE DE LANOL/SINNOWAX AO,134,emulsionante
1073,626665,111161,NAFOL 16-18/LANETTE O,30.0,NAFOL 16-18/LANETTE O,117,emulsionante
1074,626665,111501,RODOL RS /JAROCOL RL,1.0,RODOL RS /JAROCOL RL,58,colorante


In [63]:
# Vaoy a aplicar redondeo en el campo de Cantidad componente a dos decimales
tintes_gf_df['Cantidad total'] = tintes_gf_df['Cantidad total'].round(2)

tintes_gf_df.sort_values(by='Material', ascending=True).to_csv('original_data/tintes_grupos_funcionales.csv', index=False)

Vamos a cargar los datos de las órdenes de producción de los tintes

In [64]:
orden_2021_df = pd.read_csv('original_data/Datos_Viscosidad_20210601_20211231.csv', encoding='latin-1', sep=',')
orden_2022_df = pd.read_csv('original_data/Datos_Viscosidad_20220101_20221231.csv', encoding='latin-1', sep=',', low_memory=False)
orden_2023_df = pd.read_csv('original_data/Datos_Viscosidad_20230101_20230731.csv', encoding='latin-1', sep=',', low_memory=False)

In [65]:
ordenes_df = pd.concat([orden_2021_df, orden_2022_df, orden_2023_df])
ordenes_df.head()

Unnamed: 0,GUIDE,WOHNUMBER,MATCODE,WMDNAME,TEMPERATURA,PRESION,PESO,VELOCIDAD_AGITADOR,VELOCIDAD_EMULSIONADOR,VISCOSIDAD,WKUCODE,ESTADO_INSTRUCCION,VACIO,PRESET_CALENTAR,PRESET_ENFRIAR,PRESET_AGUA,PRESET_VACIO,TBINST,FECHA_MEDICION,CLVDATE_medicion,WMDQUANTITY1,UNTCODE1,RPQUANTITYPRODUCED,SCRAP,NMEDICIONt,NMEDICIONES,FINAL PROCESO,MGDVALUEMIN,MGDVALUEMAX,VISCOSIDAD_final,VISCOSIDAD_muestras,OBSERVACIONES,CAPACIDAD,CLVDATE_muestra
0,304,1032289,621005,SE. COLLAGE 1/00 NEGRO,51.93865,-0.656395,48.03241,0.0,0.0,22800.0,F11,POLLING,-0.654224,75.0,30.0,162.0,-0.6,0,2021-12-01 10:10:01.010000,2021-12-01 07:06:00.660000,904.8,KGM,909.0,-4.2,0,2,,80000.0,250000.0,130800.0,0.0,32ºc,1000.0,
1,304,1032289,621005,SE. COLLAGE 1/00 NEGRO,60.01158,-0.594907,199.6528,0.0,0.0,22800.0,F11,POLLING,-0.596354,75.0,30.0,162.0,-0.6,0,2021-12-01 10:10:01.010000,2021-12-01 07:07:00.690000,904.8,KGM,909.0,-4.2,0,2,,80000.0,250000.0,130800.0,0.0,32ºc,1000.0,
2,304,1032289,621005,SE. COLLAGE 1/00 NEGRO,59.375,-0.609375,199.6528,0.0,0.0,22800.0,F11,POLLING,-0.610098,75.0,30.0,162.0,-0.6,0,2021-12-01 10:10:01.010000,2021-12-01 07:08:00.693000,904.8,KGM,909.0,-4.2,0,2,,80000.0,250000.0,130800.0,0.0,32ºc,1000.0,
3,304,1032289,621005,SE. COLLAGE 1/00 NEGRO,58.44908,-0.602141,224.2477,0.0,0.0,22800.0,F11,POLLING,-0.602865,75.0,30.0,162.0,-0.6,0,2021-12-01 10:10:01.010000,2021-12-01 07:09:00.703000,904.8,KGM,909.0,-4.2,0,2,,80000.0,250000.0,130800.0,0.0,32ºc,1000.0,
4,304,1032289,621005,SE. COLLAGE 1/00 NEGRO,56.48148,-0.617332,274.0162,0.0,0.0,22800.0,F11,POLLING,-0.616609,75.0,30.0,162.0,-0.6,0,2021-12-01 10:10:01.010000,2021-12-01 07:10:00.733000,904.8,KGM,909.0,-4.2,0,2,,80000.0,250000.0,130800.0,0.0,32ºc,1000.0,


In [66]:
# Convierto los nombres en minúsculas, quito espacios por guinoes bajos
ordenes_df.columns = ordenes_df.columns.str.lower().str.replace(' ', '_').str.strip('_')

In [67]:
# Convierto el campo de fecha clvdate_medicion que me servirá para la ordenación
ordenes_df["clvdate_medicion"] = pd.to_datetime(ordenes_df["clvdate_medicion"], format="mixed")# format="%Y-%m-%d %H:%M:%S.%f")

In [68]:
# Filtro el dataframe para los registros que tienen el campo nmediciont = 1, que son los que tienen los datos de la primera medición
ordenes_df = ordenes_df[ordenes_df["nmediciont"] == 1]

In [69]:
# Ordenamos por el campo fecha
ordenes_df.sort_values(by=["clvdate_medicion"], inplace=True);

El siguiente paso es crucial, el primer valor que tiene el campo `nmediciont = 1` tendrá el resultado de la primera medida de viscosidad, por cada orden, es el que nos interesa recuperar.

In [70]:
# Recuperamos el primer registro para cada orden
ordenes_df = ordenes_df.groupby(["wohnumber"]).first().reset_index()

In [71]:
ordenes_df.head()

Unnamed: 0,wohnumber,guide,matcode,wmdname,temperatura,presion,peso,velocidad_agitador,velocidad_emulsionador,viscosidad,wkucode,estado_instruccion,vacio,preset_calentar,preset_enfriar,preset_agua,preset_vacio,tbinst,fecha_medicion,clvdate_medicion,wmdquantity1,untcode1,rpquantityproduced,scrap,nmediciont,nmediciones,final_proceso,mgdvaluemin,mgdvaluemax,viscosidad_final,viscosidad_muestras,observaciones,capacidad,clvdate_muestra
0,1032289,304,621005,SE. COLLAGE 1/00 NEGRO,42.99769,-0.654948,883.1019,50.0,-50.0,22800.0,F11,POLLING,-0.654948,55.0,35.0,162.0,-0.6,0,2021-12-01 10:10:01.010000,2021-12-01 10:11:00.173,904.8,KGM,909.0,-4.2,1,2,,80000.0,250000.0,130800.0,22800.0,32ºc,1000.0,2021-12-01 10:10:01.010000
1,1032292,304,628065,SE. COLLAGE 8/06 RUBIO CLARO CÁLIDO,33.7963,-0.678819,478.9352,0.0,0.0,144400.0,F1,POLLING,-0.678819,75.0,35.0,212.0,-0.6,0,2021-12-01 11:18:00.663000,2021-12-01 11:18:01.013,452.4,KGM,435.0,17.4,1,1,*** FIN PRECESO ***,80000.0,250000.0,144400.0,144400.0,31ºc,500.0,2021-12-01 11:18:00.663000
2,1032293,307,628175,SE. COLLAGE 8/17 RUB.CLA.CEN.METAL,32.87037,0.323785,2713.542,0.0,0.0,128400.0,F10,POLLING,0.324508,75.0,35.0,1626.0,-0.6,0,2021-12-13 15:57:36.703000,2021-12-13 15:58:00.460,2726.0,KGM,2708.0,18.0,1,1,*** FIN PRECESO ***,80000.0,250000.0,128400.0,128400.0,30ºC,3000.0,2021-12-13 15:57:36.703000
3,1032327,307,629915,SE. CLAIR 12/10 SUP.ACLA.CENIZA,61.16898,-0.315683,2262.153,-50.0,50.0,32800.0,F10,POLLING,-0.316406,58.0,35.0,1141.0,-0.6,0,2021-12-02 10:56:21.883000,2021-12-02 10:57:00.843,2262.0,KGM,2231.0,31.0,1,2,,80000.0,250000.0,90600.0,32800.0,30ºc,3000.0,2021-12-02 10:56:21.883000
4,1032329,302,629925,SE. CLAIR 12/20 SUP.ACLA.IRISE,34.08565,-0.652778,508.1019,0.0,0.0,106000.0,F11,POLLING,-0.652778,75.0,35.0,174.0,-0.6,0,2021-12-02 11:44:03.573000,2021-12-02 11:45:00.617,452.4,KGM,438.0,14.4,1,1,*** FIN PRECESO ***,80000.0,250000.0,106000.0,106000.0,33ºc,1000.0,2021-12-02 11:44:03.573000


De todos las columnas, nos quedamos solamente con las siguientes:

- `matcode`: Es el código de producto, no servirá para cruzar con la tabla de cantidad de componentes por producto.

- `wmdquantity`: Cantidad total de producto, es importante tener en cuenta que hay otra cantidad pero es la que se recupera de los reactores, creo que la cantidad total que se pone en el reactor es la cantidad que nos interesa.

- `viscosidad_muestras`

- `mgvaluemin`: Viscosidad mínima que ha de tener el producto, es el valor umbral que nos interesa para saber si la viscosidad es correcta. No consideramos el úmbral superior porque no es relevante.

- `capacidad`: Hay tres capacidades distintas, porque disponemos de tres reactores para la fabricación del producto.
- `clvdate_muestra`: Fecha de la medida de viscosidad

Añadimos un campo adicional `grado de llenado` con que indica la proporción de llenado del reactor.

In [72]:
# Creo la nueva columna "grado de llenado"
ordenes_df['grado_llenado'] = ordenes_df['wmdquantity1'] / ordenes_df['capacidad']
# Redondear a tres decimales
ordenes_df['grado_llenado'] = ordenes_df['grado_llenado'].round(2)

In [73]:
# Selecciono las columnas que me interesan
ordenes_df = ordenes_df[["matcode", "wmdquantity1", "mgdvaluemin", "viscosidad_muestras", "capacidad", "clvdate_muestra", "grado_llenado"]]

In [74]:
ordenes_df.head()

Unnamed: 0,matcode,wmdquantity1,mgdvaluemin,viscosidad_muestras,capacidad,clvdate_muestra,grado_llenado
0,621005,904.8,80000.0,22800.0,1000.0,2021-12-01 10:10:01.010000,0.9
1,628065,452.4,80000.0,144400.0,500.0,2021-12-01 11:18:00.663000,0.9
2,628175,2726.0,80000.0,128400.0,3000.0,2021-12-13 15:57:36.703000,0.91
3,629915,2262.0,80000.0,32800.0,3000.0,2021-12-02 10:56:21.883000,0.75
4,629925,452.4,80000.0,106000.0,1000.0,2021-12-02 11:44:03.573000,0.45


Creo una columna adicional `target` donde pondremos 1 si la medición de la viscosidad es correcta, y 0 si no es correcta

In [75]:
# Como quiero detectar aquellos casos en que la viscosidad no ha salido bien, cambio el valor del target,
# 1 si la viscosidad ha salido mal, 0 si ha salido bien

# Primero he de convertir a float el campo viscosidad_muestras
ordenes_df["viscosidad_muestras"] = ordenes_df["viscosidad_muestras"].astype(float)


ordenes_df["target"] = ordenes_df.apply(lambda x: 0 if (x["viscosidad_muestras"] >= x["mgdvaluemin"]) else 1, axis=1)

Puedo eliminar las columnas `viscosidad_muestras` y `mgdvaluemin` ya que no las utilizaremos más adelante.

In [76]:
ordenes_df.drop(["viscosidad_muestras", "mgdvaluemin"], axis=1, inplace=True)

El campo de capacidad lo convierto a string, donde cada valor lo substituiré por un nombre descriptivo del reactor

In [77]:
substitucion = {
    3000: 'Grande',
    1000: 'Mediano',
    500: 'Pequeño'
}

ordenes_df['capacidad'] = ordenes_df['capacidad'].replace(substitucion)

In [78]:
ordenes_df.head()

Unnamed: 0,matcode,wmdquantity1,capacidad,clvdate_muestra,grado_llenado,target
0,621005,904.8,Mediano,2021-12-01 10:10:01.010000,0.9,1
1,628065,452.4,Pequeño,2021-12-01 11:18:00.663000,0.9,0
2,628175,2726.0,Grande,2021-12-13 15:57:36.703000,0.91,0
3,629915,2262.0,Grande,2021-12-02 10:56:21.883000,0.75,1
4,629925,452.4,Mediano,2021-12-02 11:44:03.573000,0.45,0


Renombramos las columnas restantes

In [79]:
ordenes_df = ordenes_df.rename(
    columns={
        "matcode": "codigo_tinte",
        "wmdquantity1": "cantidad",        
        "clvdate_muestra": "fecha"
    }
)

In [80]:
ordenes_df.head()

Unnamed: 0,codigo_tinte,cantidad,capacidad,fecha,grado_llenado,target
0,621005,904.8,Mediano,2021-12-01 10:10:01.010000,0.9,1
1,628065,452.4,Pequeño,2021-12-01 11:18:00.663000,0.9,0
2,628175,2726.0,Grande,2021-12-13 15:57:36.703000,0.91,0
3,629915,2262.0,Grande,2021-12-02 10:56:21.883000,0.75,1
4,629925,452.4,Mediano,2021-12-02 11:44:03.573000,0.45,0


Queremos los grupos funcionales en columnas, por lo que pivotamos la tabla `tintes_gf_df` antes de unirla con la de ordenes de producción

In [38]:
tintes_gf_df.head()

Unnamed: 0,Material,tipo,Cantidad total
0,620005,agua,762.5
1,620005,colorante,2.5
2,620005,emulsionante,170.0
3,620005,excipiente,65.0
4,620025,agua,663.0


In [97]:
tintes_pivotada = tintes_gf_df.pivot_table(index='Material', columns='tipo', values='Cantidad total', aggfunc="sum", fill_value=0)
tintes_pivotada.reset_index(inplace=True)

In [99]:
# tintes_pivotada["total"] = tintes_pivotada[["agua", "colorante", "emulsionante", "excipiente"]].sum(axis=1)

tintes_pivotada.sort_values("Material").head(10)

tipo,Material,agua,colorante,emulsionante,excipiente
0,620005,762.5,2.5,170,65.0
1,620025,663.0,1.4,200,135.6
2,620075,626.02,9.12,190,174.86
3,620105,570.64,32.5,220,176.86
4,620115,586.33,13.8,220,179.86
5,620205,590.6,20.0,230,167.36
6,620305,649.14,4.0,180,166.86
7,620315,650.64,4.0,150,195.36
8,620405,576.14,34.0,180,209.86
9,620505,682.34,1.8,190,125.86


In [100]:
# Unimos la tabla de ordenes con la de tintes
ordenes_df = ordenes_df.merge(tintes_pivotada, left_on='codigo_tinte', right_on='Material', how='left')

In [101]:
ordenes_df.head()

Unnamed: 0,codigo_tinte,cantidad,capacidad,fecha,grado_llenado,target,Material,agua,colorante,emulsionante,excipiente
0,621005,904.8,Mediano,2021-12-01 10:10:01.010000,0.9,1,621005,501.54,60.5,230,207.96
1,628065,452.4,Pequeño,2021-12-01 11:18:00.663000,0.9,0,628065,613.19,10.95,200,175.86
2,628175,2726.0,Grande,2021-12-13 15:57:36.703000,0.91,0,628175,613.26,11.88,200,174.86
3,629915,2262.0,Grande,2021-12-02 10:56:21.883000,0.75,1,629915,528.23,4.82,180,286.95
4,629925,452.4,Mediano,2021-12-02 11:44:03.573000,0.45,0,629925,535.08,0.97,180,283.95


In [102]:
# Eliminamos la columna Material por ser redundante
ordenes_df.drop("Material", axis=1, inplace=True)

In [103]:
ordenes_df.head()

Unnamed: 0,codigo_tinte,cantidad,capacidad,fecha,grado_llenado,target,agua,colorante,emulsionante,excipiente
0,621005,904.8,Mediano,2021-12-01 10:10:01.010000,0.9,1,501.54,60.5,230,207.96
1,628065,452.4,Pequeño,2021-12-01 11:18:00.663000,0.9,0,613.19,10.95,200,175.86
2,628175,2726.0,Grande,2021-12-13 15:57:36.703000,0.91,0,613.26,11.88,200,174.86
3,629915,2262.0,Grande,2021-12-02 10:56:21.883000,0.75,1,528.23,4.82,180,286.95
4,629925,452.4,Mediano,2021-12-02 11:44:03.573000,0.45,0,535.08,0.97,180,283.95


In [104]:
ordenes_df.shape

(490, 10)

In [105]:
ordenes_df.to_csv('clean_data/ordenes.csv', index=False)