# 2. CLEANSED LAYER

In [1]:
!pip install pandasql

"pip" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [1]:
import pandas as pd
import pandasql as psql

In [2]:
path_raw = 'C:\\Users\\anton\\Datathon\\01_Raw\\'
path_cleansed = 'C:\\Users\\anton\\Datathon\\02_Cleansed\\'

## 2.1 OF 123456.xlsx

In [5]:
# Ruta Excel para OF 123456
path_OF_01 = path_raw + 'OF 123456.xlsx'

In [6]:
# Guardamos el contenido en un DataFrame
df_OF_01 = pd.read_excel(path_OF_01)
print(df_OF_01.dtypes)

Orden                     int64
Número material           int64
Texto breve material     object
Lote                     object
Cantidad entregada      float64
Unidad de medida         object
dtype: object


In [5]:
# La consulta convierte el campo Lote a entero eliminando las barras ('/'), y cambiamos el nombre de las demás columnas.
consulta = """
    SELECT 
    CAST(REPLACE(`Lote`, '/', '') AS INTEGER) AS Lote, 
    Orden AS OF,
    `Cantidad entregada` AS Cantidad_entregada

    FROM df
    """
# Ejecutamos la consulta
df_OF_02 = psql.sqldf(consulta, locals())

In [93]:
# Guardar el resultado en un archivo Excel
df_OF_02.to_excel(f'{path_cleansed}OF_123456.xlsx', index=False)

# Mostrar el resultado
display(df_OF_02)

Lote                    int64
OF                      int64
Cantidad_entregada    float64
dtype: object
      Lote         OF  Cantidad_entregada
0    23019  200178572               13.80
1    23020  200179217               13.60
2    23021  200181620               13.50
3    23022  200182428               13.80
4    23023  200182429               13.70
..     ...        ...                 ...
202  24108  200205686               13.63
203  24106  200205695               13.69
204  24107  200205696               13.45
205  24109  200205687               11.35
206  24110  200205688               13.77

[207 rows x 3 columns]


## 2.2 Fases producción.xlsx

In [6]:
# Ruta Excel para Fases de producción
path_fases_01 = path_raw + 'Fases producción.xlsx'

### 2.2.1 PREINÓCULO

In [8]:
# Leer el archivo Excel y guardar el contenido en un DataFrame
df_preinoculo_01 = pd.read_excel(path_fases_01, sheet_name = "Preinóculo")
display(df_preinoculo_01)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,pH,Unnamed: 4,Unnamed: 5,Turbidez,Unnamed: 7,Unnamed: 8,Línea utilizada,Unnamed: 10,Unnamed: 11
0,LOTE,Fecha/hora inicio,Fecha/hora fin,línea 1,línea 2,línea 3,línea 1,línea 2,línea 3,línea 1,línea 2,línea 3
1,23023,2023-03-26 05:00:00,2023-03-27 07:21:00,5.496,5.504,5.52,28.32,27.92,32,1,1,0
2,23024,2023-03-26 05:00:00,2023-03-27 07:21:00,5.496,5.504,5.52,28.32,27.92,32,1,1,0
3,23025,2023-03-17 06:00:00,2023-03-28 07:42:00,5.48,5.52,5.52,26.56,27.52,26.4,1,1,0
4,23026,2023-03-17 06:00:00,2023-03-28 07:42:00,5.48,5.52,5.52,26.56,27.52,26.4,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...
161,24103,2024-06-27 00:30:00,2024-06-28 07:16:00,5.424,5.432,5.416,32.08,32.48,30.64,1,1,0
162,24104,2024-06-30 00:30:00,2024-07-01 07:01:00,5.408,5.424,5.392,27.44,26.48,26.64,1,0,1
163,24105,2024-06-30 00:30:00,2024-07-01 07:01:00,5.408,5.424,5.392,27.44,26.48,26.64,1,0,1
164,24108,2024-07-04 00:30:00,2024-07-05 07:04:00,5.528,5.432,5.504,33.44,28.8,25.6,0,1,1


In [None]:
# Convertimos la columnas 'ph_línea 3' y 'turbidez_línea 3' a numérico y forzamos los valores no numéricos a NaN
df_preinoculo_01['ph_línea 3'] = pd.to_numeric(df_preinoculo_01['ph_línea 3'], errors='coerce')
df_preinoculo_01['turbidez_línea 3'] = pd.to_numeric(df_preinoculo_01['turbidez_línea 3'], errors='coerce')

### 2.3 CULTIVO FINAL

In [None]:
# Leemos el archivo Excel y guardamos el contenido en un DataFrame
df_cultivo_01 = pd.read_excel(path_fases_01, sheet_name = "Cultivo final")

In [None]:
# Guardamos el resultado en un archivo Excel
resultado.to_excel(f'{path_cleansed}Cultivo_final.xlsx', index=False)

## Cinéticos IPC

In [None]:
# Ruta Excel para Cinéticos IPC
path_IPC_01 = path_raw + 'Cinéticos IPC.xlsx'

### Cultivos finales

In [None]:
# Leemos el archivo Excel y guardamos el contenido en un DataFrame
df_cultivoIPC_01 = pd.read_excel(path_IPC_01, sheet_name='Cultivos finales')

In [None]:
# La consulta convierte los campos Lote, Turbidez y Glucosa g/L a valores numéricos, manejando excepciones como NULL.
consulta = """
    SELECT 
        CAST(Lote AS Integer) AS Lote,
        Fecha,
        CAST(NULLIF(Turbidez, '-') AS Float) AS Turbidez,
        Viabilidad,
        CASE
            WHEN `Glucosa g/L` REGEXP '^[0-9]+\\.[0-9]+$' THEN CAST(`Glucosa g/L` AS Float)
            ELSE NULL
        END AS Glucosa
    FROM df_cultivoIPC_01
"""
resultado = psql.sqldf(consulta, locals())

# Cambiamos, con la librería pandas, el tipo de campo 'Fecha' a DATETIME porque la librería pandasql no tiene la función
resultado['Fecha'] = pd.to_datetime(resultado['Fecha'])

Lote                   object
Fecha          datetime64[ns]
Turbidez               object
Viabilidad            float64
Glucosa g/L            object
dtype: object


In [None]:
# Guardamos el resultado en un archivo Excel
resultado.to_excel(f'{path_cleansed}CineticosIPC_Cultivos.xlsx', index=False)

# Mostrar el resultado
display(resultado)

Lote                   int64
Fecha         datetime64[ns]
Turbidez             float64
Viabilidad           float64
Glucosa              float64
dtype: object
       Lote               Fecha  Turbidez    Viabilidad  Glucosa
0     23019 2023-03-21 07:30:00     17.28  8.333333e+06    1.744
1     23019 2023-03-21 11:00:00     17.28  1.397333e+07    1.968
2     23019 2023-03-21 14:00:00     18.40  1.688000e+07    1.920
3     23019 2023-03-21 18:00:00     19.76  2.474667e+07    1.880
4     23019 2023-03-22 07:00:00     39.12  1.000000e+08    1.568
...     ...                 ...       ...           ...      ...
1906  24110 2024-07-04 15:30:00     58.40  8.053333e+07    1.584
1907  24110 2024-07-04 19:30:00     69.76  1.021333e+08    1.248
1908  24110 2024-07-05 06:30:00    100.80  1.525333e+08    0.600
1909  24110 2024-07-05 08:00:00    104.80  1.514667e+08    0.520
1910  24110 2024-07-05 10:10:00    104.80  1.573333e+08    0.592

[1911 rows x 5 columns]
