***Análisis exploratorio de una fermentación Fed-batch para producción de levadura comercial***

Este cuaderno muestra algunas herramientas adquiridas en el curso de análisis exploratorio de datos
que ayudan en el proceso del entendimiento de resultados y desempeño de una fermentación de lote alimentado usando mieles de caña de azúcar y úrea para producir levadura comercial de panadería.

Estos datos son obtenidos desde la unidad de control de un biorreactor a escala piloto donde es realizado este proceso.

Este trabajo es realizado por los estudiantes de la maestría en ingeniería en modalidad de investigación Alejandro Martínez y Luis Vásquez.

**Paso 1. SMART question**

¿Cuales son las variables que pueden tener más influencia en el coeficiente respiratorio (RQ) de la fermentación?

**Paso 2. Obtener datos y cargar dataset.**
 
En este punto se debe verificar que los datos permitan resolver la smart question, en caso contrario, se replantea la pregunta teniendo en cuenta los datos obtenidos.


In [1]:
# Como primer paso importamos las liberías que son necesarias para la lectura de datos, acciones de preparación de los datos y demás liberías que permitan su visualización 
import pandas as pd


In [2]:
#Continuamos con el cargue de el dataset
LP13= pd.read_csv('DATOSLP13DEA.csv', sep=',', encoding="latin1")

**Paso 3. Analizar la estructura de datos (columnas, nombres, tipos, escalas)**


In [3]:

#Luego de cargar el dataset, se hace una revisión preliminar de los datos
print('(cantidad de filas, número de columnas)')
LP13.shape
df_viejo=LP13.shape

(cantidad de filas, número de columnas)


In [4]:
LP13.info

<bound method DataFrame.info of             Date      Time     AT-101     AT-102       CO2  DENSIDAD  \
0     12/14/2023  13:24:26  14.875000  21.250002  0.724000  1.007875   
1     12/14/2023  13:24:56  14.875000  21.250002  0.716349  1.006500   
2     12/14/2023  13:25:26  14.875000  21.250002  0.651882  1.009500   
3     12/14/2023  13:25:56  14.875000  21.250002  0.459085  0.995875   
4     12/14/2023  13:26:26  14.875000  21.250002  0.266001  0.994750   
...          ...       ...        ...        ...       ...       ...   
2351  12/15/2023   9:00:12   6.023500   7.455000  0.347509  1.149375   
2352  12/15/2023   9:00:42   6.042750   7.415000  0.350044  1.142875   
2353  12/15/2023   9:01:12   5.997250   7.388751  0.352907  1.134000   
2354  12/15/2023   9:01:42   6.008625   7.443750  0.349181  1.149750   
2355  12/15/2023   9:02:12   5.990250   7.415000  0.348500  1.141000   

         FLUJO   FT-101  LT-101  NIVEL_ACTIVAR  ...  Unnamed: 26  Unnamed: 27  \
0     0.347813  0.0162

In [5]:
#Podemos comprobar nuevamente el contenido de los datos con la siguiente linea
LP13.head()

Unnamed: 0,Date,Time,AT-101,AT-102,CO2,DENSIDAD,FLUJO,FT-101,LT-101,NIVEL_ACTIVAR,...,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30,Unnamed: 31,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35
0,12/14/2023,13:24:26,14.875,21.250002,0.724,1.007875,0.347813,0.01628,0.0,46,...,,,,,,,,,,
1,12/14/2023,13:24:56,14.875,21.250002,0.716349,1.0065,0.452813,0.01628,0.0,46,...,,,,,,,,,,
2,12/14/2023,13:25:26,14.875,21.250002,0.651882,1.0095,0.380625,0.01628,0.0,46,...,,,,,Peso seco,Volumen,15,mL,,
3,12/14/2023,13:25:56,14.875,21.250002,0.459085,0.995875,0.07125,0.01628,0.0,46,...,,,,Hora,Código,Petri vacio,Petri seco,Peso seco (g/L),Promedio (g/L),Desviación media
4,12/14/2023,13:26:26,14.875,21.250002,0.266001,0.99475,0.441563,0.01628,0.0,46,...,,,,12:00 AM,0A,44.1619,44.3635,281.43,278.705,3.85


Al realizar una revisión general, nos damos cuenta que necesitamos eliminar varias columnas que no tienen 
registro de los TAGS que corresponden a los valores de las variables que mide el reactor durante el proceso.

In [6]:
#eliminación de columnas
LP13=LP13.iloc[:,:25]
#corroboramos el nuevo estado del dataset sin las columnas vacías
LP13.head()


Unnamed: 0,Date,Time,AT-101,AT-102,CO2,DENSIDAD,FLUJO,FT-101,LT-101,NIVEL_ACTIVAR,...,RQ,SE-101,SET_POINT_GAS,SUSTRATO,SUSTRATO2,SV-101,TE-101,TE-102,TE-103,TE-106
0,12/14/2023,13:24:26,14.875,21.250002,0.724,1.007875,0.347813,0.01628,0.0,46,...,0.664287,0,0.0,0.0,0,645,81.77813,73.755585,143.740631,27.467407
1,12/14/2023,13:24:56,14.875,21.250002,0.716349,1.0065,0.452813,0.01628,0.0,46,...,0.687632,0,0.0,0.0,0,645,81.393753,73.499237,143.660523,27.467407
2,12/14/2023,13:25:26,14.875,21.250002,0.651882,1.0095,0.380625,0.01628,0.0,46,...,0.815077,0,0.0,0.0,0,645,80.93438,73.114716,144.077087,27.483429
3,12/14/2023,13:25:56,14.875,21.250002,0.459085,0.995875,0.07125,0.01628,0.0,46,...,0.98273,0,0.0,0.0,0,645,80.709381,73.002533,144.18927,27.499451
4,12/14/2023,13:26:26,14.875,21.250002,0.266001,0.99475,0.441563,0.01628,0.0,46,...,0.664425,0,0.0,0.0,0,645,80.27813,72.714142,144.173248,27.499451


In [7]:
#Se comparan el dataset antes de modificar y el nuevo dataset con las columnas eliminadas
print('Filas y columnas del antigüo dataset', df_viejo)
print('Filas y columnas del dataset modificado', LP13.shape)

Filas y columnas del antigüo dataset (2356, 36)
Filas y columnas del dataset modificado (2356, 25)


Con se comprueba que las columnas pasaron de 36 a un total de 25 columnas, indiicando la eliminación de las columnas con datos vacíos que no aportan al análisis del proceos

**Paso 4. Separar las variables categóricas de las numéricas**

In [8]:
categorical = LP13.select_dtypes(include=['object'])  # Selecciona las columnas tipo 'object'
numeric = LP13.select_dtypes(include=['int', 'float'])  # Selecciona las columnas tipo 'int' o 'float'

print("Variables Categóricas:")
print(categorical)
print("\nVariables Numéricas:")
print(numeric)

Variables Categóricas:
            Date      Time
0     12/14/2023  13:24:26
1     12/14/2023  13:24:56
2     12/14/2023  13:25:26
3     12/14/2023  13:25:56
4     12/14/2023  13:26:26
...          ...       ...
2351  12/15/2023   9:00:12
2352  12/15/2023   9:00:42
2353  12/15/2023   9:01:12
2354  12/15/2023   9:01:42
2355  12/15/2023   9:02:12

[2356 rows x 2 columns]

Variables Numéricas:
         AT-101     AT-102       CO2  DENSIDAD     FLUJO   FT-101  LT-101  \
0     14.875000  21.250002  0.724000  1.007875  0.347813  0.01628     0.0   
1     14.875000  21.250002  0.716349  1.006500  0.452813  0.01628     0.0   
2     14.875000  21.250002  0.651882  1.009500  0.380625  0.01628     0.0   
3     14.875000  21.250002  0.459085  0.995875  0.071250  0.01628     0.0   
4     14.875000  21.250002  0.266001  0.994750  0.441563  0.01628     0.0   
...         ...        ...       ...       ...       ...      ...     ...   
2351   6.023500   7.455000  0.347509  1.149375  0.375938  0.01628  

Luego de separar las variables, nos damos cuenta que se toman como categóricas la fecha y la hora. Esta última se considera clave ya que es la línea de tiempo del proceso, para esto se considera oportuno la imputación de una columna con la secuencia de avance del tiempo y el registro de cada dato.

NOTA: a lo largo de este proceso se realizan diferentes imputaciones de valores nulos 

**Paso 5.Análsis univaridado**


In [9]:
categorical.dtypes


Date    object
Time    object
dtype: object

In [10]:
# Convertir la columna de tiempo en formato datetime
#LP13['Time'] = pd.to_datetime(LP13['Time'])

# Calcular la hora en segundos desde la medianoche
#LP13['hora_en_segundos'] = LP13['Time'].dt.hour * 3600 + LP13['Time'].dt.minute * 60 + LP13['Time'].dt.second

# Dentro del nuevo dataframe de variables numéricas se incorpora la línea de tiempo en segundos como la primera columna del dataset a trabajar en el análisis
#combined_df = pd.concat([numeric, LP13['hora_en_segundos']], axis=1)

# Ahora 'combined_df' contiene todas las variables numéricas junto con la columna de hora en segundos
#print(combined_df)
#combined_df.head()

  LP13['Time'] = pd.to_datetime(LP13['Time'])


Unnamed: 0,AT-101,AT-102,CO2,DENSIDAD,FLUJO,FT-101,LT-101,NIVEL_ACTIVAR,NIVEL_ANTIESPU,O2,...,SE-101,SET_POINT_GAS,SUSTRATO,SUSTRATO2,SV-101,TE-101,TE-102,TE-103,TE-106,hora_en_segundos
0,14.875,21.250002,0.724,1.007875,0.347813,0.01628,0.0,46,0,19.891048,...,0,0.0,0.0,0,645,81.77813,73.755585,143.740631,27.467407,48266
1,14.875,21.250002,0.716349,1.0065,0.452813,0.01628,0.0,46,0,19.937052,...,0,0.0,0.0,0,645,81.393753,73.499237,143.660523,27.467407,48296
2,14.875,21.250002,0.651882,1.0095,0.380625,0.01628,0.0,46,0,20.169586,...,0,0.0,0.0,0,645,80.93438,73.114716,144.077087,27.483429,48326
3,14.875,21.250002,0.459085,0.995875,0.07125,0.01628,0.0,46,0,20.493565,...,0,0.0,0.0,0,645,80.709381,73.002533,144.18927,27.499451,48356
4,14.875,21.250002,0.266001,0.99475,0.441563,0.01628,0.0,46,0,20.580091,...,0,0.0,0.0,0,645,80.27813,72.714142,144.173248,27.499451,48386


In [11]:
# Convertir la columna de tiempo en formato datetime
LP13['Time'] = pd.to_datetime(LP13['Time'])

# Calcular la hora en segundos desde la medianoche
LP13['hora_en_segundos'] = LP13['Time'].dt.hour * 3600 + LP13['Time'].dt.minute * 60 + LP13['Time'].dt.second

# Ajustar la columna de hora en segundos para que el primer registro sea 0
LP13['hora_en_segundos'] = LP13['hora_en_segundos'] - LP13['hora_en_segundos'].iloc[0]

# Dentro del nuevo dataframe de variables numéricas se incorpora la línea de tiempo en segundos como la primera columna del dataset a trabajar en el análisis
combined_df = pd.concat([LP13['hora_en_segundos'], numeric], axis=1)

# Ahora 'combined_df' contiene todas las variables numéricas junto con la columna de hora en segundos
combined_df.head()


Unnamed: 0,hora_en_segundos,AT-101,AT-102,CO2,DENSIDAD,FLUJO,FT-101,LT-101,NIVEL_ACTIVAR,NIVEL_ANTIESPU,...,RQ,SE-101,SET_POINT_GAS,SUSTRATO,SUSTRATO2,SV-101,TE-101,TE-102,TE-103,TE-106
0,0,14.875,21.250002,0.724,1.007875,0.347813,0.01628,0.0,46,0,...,0.664287,0,0.0,0.0,0,645,81.77813,73.755585,143.740631,27.467407
1,30,14.875,21.250002,0.716349,1.0065,0.452813,0.01628,0.0,46,0,...,0.687632,0,0.0,0.0,0,645,81.393753,73.499237,143.660523,27.467407
2,60,14.875,21.250002,0.651882,1.0095,0.380625,0.01628,0.0,46,0,...,0.815077,0,0.0,0.0,0,645,80.93438,73.114716,144.077087,27.483429
3,90,14.875,21.250002,0.459085,0.995875,0.07125,0.01628,0.0,46,0,...,0.98273,0,0.0,0.0,0,645,80.709381,73.002533,144.18927,27.499451
4,120,14.875,21.250002,0.266001,0.99475,0.441563,0.01628,0.0,46,0,...,0.664425,0,0.0,0.0,0,645,80.27813,72.714142,144.173248,27.499451
