Análisis exploratorio de una fermentación Fed-batch para producción de levadura comercial

Este cuaderno muestra algunas herramientas adquiridas en el curso de análisis exploratorio de datos
que ayudan en el proceso del entendimiento de resultados y desempeño de una fermentación de lote alimentado usando mieles de caña de azúcar y úrea para producir levadura comercial de panadería.

Estos datos son obtenidos desde la unidad de control de un biorreactor a escala piloto donde es realizado este proceso.

Este trabajo es realizado por los estudiantes de la maestría en ingeniería en modalidad de investigación Alejandro Martínez y Luis Vásquez.

In [4]:
# Como primer paso importamos las liberías que son necesarias para la lectura de datos, acciones de preparación de los datos y demás liberías que permitan su visualización 
import pandas as pd


In [5]:
#Continuamos con el cargue de el dataset
LP13= pd.read_csv('DATOSLP13DEA.csv', sep=',', encoding="latin1")
#Luego de cargar el dataset, se hace una revisión preliminar de los datos
LP13.info

<bound method DataFrame.info of             Date      Time     AT-101     AT-102       CO2  DENSIDAD  \
0     12/14/2023  13:24:26  14.875000  21.250002  0.724000  1.007875   
1     12/14/2023  13:24:56  14.875000  21.250002  0.716349  1.006500   
2     12/14/2023  13:25:26  14.875000  21.250002  0.651882  1.009500   
3     12/14/2023  13:25:56  14.875000  21.250002  0.459085  0.995875   
4     12/14/2023  13:26:26  14.875000  21.250002  0.266001  0.994750   
...          ...       ...        ...        ...       ...       ...   
2351  12/15/2023   9:00:12   6.023500   7.455000  0.347509  1.149375   
2352  12/15/2023   9:00:42   6.042750   7.415000  0.350044  1.142875   
2353  12/15/2023   9:01:12   5.997250   7.388751  0.352907  1.134000   
2354  12/15/2023   9:01:42   6.008625   7.443750  0.349181  1.149750   
2355  12/15/2023   9:02:12   5.990250   7.415000  0.348500  1.141000   

         FLUJO   FT-101  LT-101  NIVEL_ACTIVAR  ...  Unnamed: 26  Unnamed: 27  \
0     0.347813  0.0162

In [6]:
#Podemos comprobar nuevamente el contenido de los datos con la siguiente linea
LP13.head()

Unnamed: 0,Date,Time,AT-101,AT-102,CO2,DENSIDAD,FLUJO,FT-101,LT-101,NIVEL_ACTIVAR,...,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30,Unnamed: 31,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35
0,12/14/2023,13:24:26,14.875,21.250002,0.724,1.007875,0.347813,0.01628,0.0,46,...,,,,,,,,,,
1,12/14/2023,13:24:56,14.875,21.250002,0.716349,1.0065,0.452813,0.01628,0.0,46,...,,,,,,,,,,
2,12/14/2023,13:25:26,14.875,21.250002,0.651882,1.0095,0.380625,0.01628,0.0,46,...,,,,,Peso seco,Volumen,15,mL,,
3,12/14/2023,13:25:56,14.875,21.250002,0.459085,0.995875,0.07125,0.01628,0.0,46,...,,,,Hora,Código,Petri vacio,Petri seco,Peso seco (g/L),Promedio (g/L),Desviación media
4,12/14/2023,13:26:26,14.875,21.250002,0.266001,0.99475,0.441563,0.01628,0.0,46,...,,,,12:00 AM,0A,44.1619,44.3635,281.43,278.705,3.85


Al realizar una revisión general, nos damos cuenta que necesitamos eliminar varias columnas que no tienen 
registro de los TAGS que corresponden a los valores de las variables que mide el reactor durante el proceso.

In [8]:
#eliminación de columnas
LP13=LP13.iloc[:,:25]
LP13.head()


Unnamed: 0,Date,Time,AT-101,AT-102,CO2,DENSIDAD,FLUJO,FT-101,LT-101,NIVEL_ACTIVAR,...,RQ,SE-101,SET_POINT_GAS,SUSTRATO,SUSTRATO2,SV-101,TE-101,TE-102,TE-103,TE-106
0,12/14/2023,13:24:26,14.875,21.250002,0.724,1.007875,0.347813,0.01628,0.0,46,...,0.664287,0,0.0,0.0,0,645,81.77813,73.755585,143.740631,27.467407
1,12/14/2023,13:24:56,14.875,21.250002,0.716349,1.0065,0.452813,0.01628,0.0,46,...,0.687632,0,0.0,0.0,0,645,81.393753,73.499237,143.660523,27.467407
2,12/14/2023,13:25:26,14.875,21.250002,0.651882,1.0095,0.380625,0.01628,0.0,46,...,0.815077,0,0.0,0.0,0,645,80.93438,73.114716,144.077087,27.483429
3,12/14/2023,13:25:56,14.875,21.250002,0.459085,0.995875,0.07125,0.01628,0.0,46,...,0.98273,0,0.0,0.0,0,645,80.709381,73.002533,144.18927,27.499451
4,12/14/2023,13:26:26,14.875,21.250002,0.266001,0.99475,0.441563,0.01628,0.0,46,...,0.664425,0,0.0,0.0,0,645,80.27813,72.714142,144.173248,27.499451


Luego, separamos las variables categóricas de las numéricas

In [11]:
categorical = LP13.select_dtypes(include=['object'])  # Selecciona las columnas tipo 'object'
numeric = LP13.select_dtypes(include=['int', 'float'])  # Selecciona las columnas tipo 'int' o 'float'

print("Variables Categóricas:")
print(categorical)
print("\nVariables Numéricas:")
print(numeric)

Variables Categóricas:
            Date      Time
0     12/14/2023  13:24:26
1     12/14/2023  13:24:56
2     12/14/2023  13:25:26
3     12/14/2023  13:25:56
4     12/14/2023  13:26:26
...          ...       ...
2351  12/15/2023   9:00:12
2352  12/15/2023   9:00:42
2353  12/15/2023   9:01:12
2354  12/15/2023   9:01:42
2355  12/15/2023   9:02:12

[2356 rows x 2 columns]

Variables Numéricas:
         AT-101     AT-102       CO2  DENSIDAD     FLUJO   FT-101  LT-101  \
0     14.875000  21.250002  0.724000  1.007875  0.347813  0.01628     0.0   
1     14.875000  21.250002  0.716349  1.006500  0.452813  0.01628     0.0   
2     14.875000  21.250002  0.651882  1.009500  0.380625  0.01628     0.0   
3     14.875000  21.250002  0.459085  0.995875  0.071250  0.01628     0.0   
4     14.875000  21.250002  0.266001  0.994750  0.441563  0.01628     0.0   
...         ...        ...       ...       ...       ...      ...     ...   
2351   6.023500   7.455000  0.347509  1.149375  0.375938  0.01628  