# Solución etapa 4 - EDA + Cleaning

In [23]:
# Utilidades para print
from utils.print_utils import tabl, headr, titl, ptitl
from utils.explore_utils import explr

In [24]:
# Cargar los datasets
import pandas as pd

historicos_ordenes = pd.read_csv('../data/original/Historicos_Ordenes.csv')
registros_condiciones = pd.read_csv('../data/original/Registros_Condiciones.csv')
caracteristicas_equipos = pd.read_csv('../data/original/Caracteristicas_Equipos.csv')


## Exploración

In [25]:
ptitl('historicos_ordenes')
explr(historicos_ordenes)

ptitl('registros_condiciones')
explr(registros_condiciones)

ptitl('caracteristicas_equipos')
explr(caracteristicas_equipos)


[1m[4m[94m** HISTORICOS_ORDENES **[0m


[4mColumnas:[0m

['ID_Orden', 'ID_Equipo', 'Fecha', 'Tipo_Mantenimiento', 'Costo_Mantenimiento', 'Duracion_Horas', 'Ubicacion']

[4mNuméricas[0m

         ID_Orden    ID_Equipo    Costo_Mantenimiento    Duracion_Horas
-----  ----------  -----------  ---------------------  ----------------
count    31866       31866                   31866          31866
mean     15933.5       250.538                1042.23           3.97875
std       9199.07      144.959                1125.62           5.66602
min          1           1                     100              1
25%       7967.25      123                     387              1
(8, 4)

[4mCategóricas[0m

        Fecha       Tipo_Mantenimiento    Ubicacion
------  ----------  --------------------  -----------
count   31866       31866                 31866
unique  1461        2                     4
top     2021-01-30  Preventivo            Ubicacion_C
freq    44          24744             

In [26]:
# Profiling historicos_ordenes

from ydata_profiling import ProfileReport

profile = ProfileReport(historicos_ordenes, title="historicos_ordenes Profiling Report",
                        correlations={
                            "pearson": {"calculate": True},
                            "cramers": {"calculate": True},
                        })

In [27]:
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

In [28]:
# Profiling caracteristicas_equipos

print(titl('caracteristicas_equipos'))

profile = ProfileReport(caracteristicas_equipos, title="caracteristicas_equipos Profiling Report",
                        correlations={
                            "pearson": {"calculate": True},
                            "cramers": {"calculate": True},
                        })


[1m[4m[94m** CARACTERISTICAS_EQUIPOS **[0m



In [29]:
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

In [30]:
# Profiling registros_condiciones

print(titl('registros_condiciones'))

profile = ProfileReport(registros_condiciones, title="registros_condiciones Profiling Report",
                        correlations={
                            "pearson": {"calculate": True},
                            "cramers": {"calculate": True},
                        })


[1m[4m[94m** REGISTROS_CONDICIONES **[0m



In [31]:
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

In [32]:
ptitl('Dimensiones:')
print('historicos_ordenes:',historicos_ordenes.shape)
print('registros_condiciones:',registros_condiciones.shape)
print('caracteristicas_equipos:',caracteristicas_equipos.shape)


[1m[4m[94m** DIMENSIONES: **[0m

historicos_ordenes: (31866, 7)
registros_condiciones: (730500, 6)
caracteristicas_equipos: (500, 6)


## Limpiar

In [33]:
# hacemo copia
historicos_ordenes_cleaned = historicos_ordenes.copy()
registros_condiciones_cleaned = registros_condiciones.copy()
caracteristicas_equipos_cleaned = caracteristicas_equipos.copy()

### Nulos

In [34]:
# Verificar valores nulos
print(titl("Valores nulos"))

print(headr('historicos_ordenes:'),historicos_ordenes_cleaned.isnull().sum())
print(headr('registros_condiciones:'),registros_condiciones_cleaned.isnull().sum())
print(headr('caracteristicas_equipos:'),caracteristicas_equipos_cleaned.isnull().sum())


[1m[4m[94m** VALORES NULOS **[0m


[4mhistoricos_ordenes:[0m
 ID_Orden               0
ID_Equipo              0
Fecha                  0
Tipo_Mantenimiento     0
Costo_Mantenimiento    0
Duracion_Horas         0
Ubicacion              0
dtype: int64

[4mregistros_condiciones:[0m
 ID_Registro         0
ID_Equipo           0
Fecha               0
Temperatura_C       0
Vibracion_mm_s      0
Horas_Operativas    0
dtype: int64

[4mcaracteristicas_equipos:[0m
 ID_Equipo                      0
Tipo_Equipo                    0
Fabricante                     0
Modelo                         0
Potencia_kW                    0
Horas_Recomendadas_Revision    0
dtype: int64


In [35]:
# Manejo de valores nulos
historicos_ordenes_cleaned.dropna(subset=['Costo_Mantenimiento'], inplace=True)  # Ejemplo de imputación
registros_condiciones_cleaned.dropna(subset=['Temperatura_C', 'Vibracion_mm_s'], inplace=True)  # Eliminar registros con valores faltantes críticos

In [36]:
print(titl("Valores nulos after:"))

print(headr('historicos_ordenes:'),historicos_ordenes_cleaned.isnull().sum())
print(headr('registros_condiciones:'),registros_condiciones_cleaned.isnull().sum())
print(headr('caracteristicas_equipos:'),caracteristicas_equipos_cleaned.isnull().sum())


[1m[4m[94m** VALORES NULOS AFTER: **[0m


[4mhistoricos_ordenes:[0m
 ID_Orden               0
ID_Equipo              0
Fecha                  0
Tipo_Mantenimiento     0
Costo_Mantenimiento    0
Duracion_Horas         0
Ubicacion              0
dtype: int64

[4mregistros_condiciones:[0m
 ID_Registro         0
ID_Equipo           0
Fecha               0
Temperatura_C       0
Vibracion_mm_s      0
Horas_Operativas    0
dtype: int64

[4mcaracteristicas_equipos:[0m
 ID_Equipo                      0
Tipo_Equipo                    0
Fabricante                     0
Modelo                         0
Potencia_kW                    0
Horas_Recomendadas_Revision    0
dtype: int64


### Duplicados

In [37]:
# Eliminar duplicados
print(titl("Duplicados"))

print(headr('historicos_ordenes:'),historicos_ordenes_cleaned.duplicated().sum())
print(headr('registros_condiciones:'),registros_condiciones_cleaned.duplicated().sum())
print(headr('caracteristicas_equipos:'),caracteristicas_equipos_cleaned.duplicated().sum())



[1m[4m[94m** DUPLICADOS **[0m


[4mhistoricos_ordenes:[0m
 0

[4mregistros_condiciones:[0m
 0

[4mcaracteristicas_equipos:[0m
 0


In [38]:
# Eliminar duplicados
historicos_ordenes_cleaned.drop_duplicates(inplace=True)
registros_condiciones_cleaned.drop_duplicates(inplace=True)
caracteristicas_equipos_cleaned.drop_duplicates(inplace=True)


In [13]:
# Eliminar duplicados
print(titl("Duplicados después"))

print(headr('historicos_ordenes:'),historicos_ordenes_cleaned.duplicated().sum())
print(headr('registros_condiciones:'),registros_condiciones_cleaned.duplicated().sum())
print(headr('caracteristicas_equipos:'),caracteristicas_equipos_cleaned.duplicated().sum())



[1m[4m[94m** DUPLICADOS DESPUÉS **[0m


[4mhistoricos_ordenes:[0m
 0

[4mregistros_condiciones:[0m
 0

[4mcaracteristicas_equipos:[0m
 0


### Outliers

In [14]:
# Detectar y manejar outliers (ejemplo para temperatura)

# Extraer columnas numéricas y categóricas
from sklearn.compose import make_column_selector as selector

def extract_numerical_and_categorical(df):
    numerical_columns_selector = selector(dtype_exclude=object)
    categorical_columns_selector = selector(dtype_include=object)

    numerical_columns = numerical_columns_selector(df)
    categorical_columns = categorical_columns_selector(df)

    return numerical_columns, categorical_columns


In [15]:
h_num, h_cat = extract_numerical_and_categorical(historicos_ordenes_cleaned)
print(headr("h_num, h_cat"),h_num, h_cat)
r_num, r_cat = extract_numerical_and_categorical(registros_condiciones_cleaned)
print(headr("r_num, r_cat"),r_num, r_cat)
c_num, c_cat = extract_numerical_and_categorical(caracteristicas_equipos_cleaned)
print(headr("c_num, c_cat"),c_num, c_cat)


[4mh_num, h_cat[0m
 ['ID_Orden', 'ID_Equipo', 'Costo_Mantenimiento', 'Duracion_Horas'] ['Fecha', 'Tipo_Mantenimiento', 'Ubicacion']

[4mr_num, r_cat[0m
 ['ID_Registro', 'ID_Equipo', 'Temperatura_C', 'Vibracion_mm_s', 'Horas_Operativas'] ['Fecha']

[4mc_num, c_cat[0m
 ['ID_Equipo', 'Potencia_kW', 'Horas_Recomendadas_Revision'] ['Tipo_Equipo', 'Fabricante', 'Modelo']


In [16]:
# identificación
def identif_outliers(df, num_cols):
    IQR = df[num_cols].quantile(0.75) - df[num_cols].quantile(0.25)
    lower_bound = df[num_cols].quantile(0.25) - (IQR * 3)
    upper_bound = df[num_cols].quantile(0.75) + (IQR * 3)

    outliers = df[num_cols][(df[num_cols] < lower_bound) | (df[num_cols] > upper_bound)]

    # columnas con outliers
    columns_with_outliers = outliers.columns[outliers.count() > 0]
    columns_with_outliers

    return outliers.count(), columns_with_outliers, lower_bound, upper_bound

In [17]:
h_nout, h_col_out, h_low, h_upp = identif_outliers(historicos_ordenes_cleaned, h_num)
print(headr("h_num_out:"),h_nout)

r_nout, r_col_out, r_low, r_upp = identif_outliers(registros_condiciones_cleaned, r_num)
print(headr("r_num_out:"),r_nout)

c_nout, c_col_out, c_low, c_upp = identif_outliers(caracteristicas_equipos_cleaned, c_num)
print(headr("c_num_out:"),c_nout)


[4mh_num_out:[0m
 ID_Orden                  0
ID_Equipo                 0
Costo_Mantenimiento    3782
Duracion_Horas         5671
dtype: int64

[4mr_num_out:[0m
 ID_Registro            0
ID_Equipo              0
Temperatura_C          0
Vibracion_mm_s         0
Horas_Operativas    6350
dtype: int64

[4mc_num_out:[0m
 ID_Equipo                      0
Potencia_kW                    0
Horas_Recomendadas_Revision    0
dtype: int64


In [18]:
# Función para winsorizar una columna
def winsorize_column(column, lower_bound, upper_bound):
    return column.clip(lower=lower_bound, upper=upper_bound)

In [19]:
# procesamos todas las comumnas con outliers
for col_name in h_col_out:
    historicos_ordenes_cleaned[col_name] = winsorize_column(historicos_ordenes_cleaned[col_name], h_low[col_name], h_upp[col_name])

for col_name in r_col_out:
    registros_condiciones_cleaned[col_name] = winsorize_column(registros_condiciones_cleaned[col_name], r_low[col_name], r_upp[col_name])

for col_name in c_col_out:
    caracteristicas_equipos_cleaned[col_name] = winsorize_column(caracteristicas_equipos_cleaned[col_name], c_low[col_name], c_upp[col_name])


In [20]:
h_nout, h_col_out, h_low, h_upp = identif_outliers(historicos_ordenes_cleaned, h_num)
print(headr("h_num_out:"),h_nout)

r_nout, r_col_out, r_low, r_upp = identif_outliers(registros_condiciones_cleaned, r_num)
print(headr("r_num_out:"),r_nout)

c_nout, c_col_out, c_low, c_upp = identif_outliers(caracteristicas_equipos_cleaned, c_num)
print(headr("c_num_out:"),c_nout)


[4mh_num_out:[0m
 ID_Orden               0
ID_Equipo              0
Costo_Mantenimiento    0
Duracion_Horas         0
dtype: int64

[4mr_num_out:[0m
 ID_Registro         0
ID_Equipo           0
Temperatura_C       0
Vibracion_mm_s      0
Horas_Operativas    0
dtype: int64

[4mc_num_out:[0m
 ID_Equipo                      0
Potencia_kW                    0
Horas_Recomendadas_Revision    0
dtype: int64


## Guardar estado

In [22]:
historicos_ordenes_cleaned.to_csv('../data/cleaned/historicos_ordenes_cleaned.csv', index=False)
registros_condiciones_cleaned.to_csv('../data/cleaned/registros_condiciones_cleaned.csv', index=False)
caracteristicas_equipos_cleaned.to_csv('../data/cleaned/caracteristicas_equipos_cleaned.csv', index=False)