In [1]:
import pandas as pd
import numpy as np
from sklearn.compose import make_column_selector as selector

# Cargar los tres datasets:

In [2]:
# Cargar los tres datasets DES:
base_url = "https://raw.githubusercontent.com/ricardoahumada/DataExpert/refs/heads/main/etapa2/data/"

try:
    df_original_caracteristicas_equipos = pd.read_csv(base_url + 'Caracteristicas_Equipos.csv')
    df_original_historico_ordenes = pd.read_csv(base_url + 'Historicos_Ordenes.csv')
    df_original_registros_condiciones = pd.read_csv(base_url + 'Registros_Condiciones.csv')

except Exception as e:
    print(f"Error al cargar los datos: {str(e)}")


# Guardar copia en local:

In [3]:
# Los guardamos en local los originales para no depender.

df_original_caracteristicas_equipos.to_csv("../output/df_caracteristicas_equipos.csv", index=False)
df_original_historico_ordenes.to_csv("../output/df_historico_ordenes.csv", index=False)
df_original_registros_condiciones.to_csv("../output/df_registros_condiciones.csv", index=False)


# Cargar los tres datasets desde local:

In [4]:
# Cargar los tres datasets desde local:


try:
    df_trabajo_caracteristicas_equipos = pd.read_csv("../output/df_caracteristicas_equipos.csv")
    df_trabajo_historico_ordenes = pd.read_csv("../output/df_historico_ordenes.csv")
    df_trabajo_registros_condiciones = pd.read_csv("../output/df_registros_condiciones.csv")

except Exception as e:
    print(f"Error al cargar los datos: {str(e)}")


# Preprocesado por separado:

# Eliminar Nulos:

In [5]:
def eliminar_nulos(df):

# Esta función verifica si hay valores nulos en el DataFrame.
    
    nulos = df.isnull().sum().sum()
    print("Numero nulos=" + str(nulos))

    if nulos != 0:
        df.dropna(inplace=True)
        print("Valores nulos eliminados")
    else:
        print("No hay valores nulos")
    
    return

In [6]:
print(df_trabajo_caracteristicas_equipos.info())
print(df_trabajo_historico_ordenes.info())
print(df_trabajo_registros_condiciones.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 505 entries, 0 to 504
Data columns (total 6 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   ID_Equipo                    505 non-null    int64  
 1   Tipo_Equipo                  505 non-null    object 
 2   Fabricante                   505 non-null    object 
 3   Modelo                       505 non-null    object 
 4   Potencia_kW                  505 non-null    float64
 5   Horas_Recomendadas_Revision  505 non-null    int64  
dtypes: float64(1), int64(2), object(3)
memory usage: 23.8+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10020 entries, 0 to 10019
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID_Orden             10020 non-null  int64  
 1   ID_Equipo            10020 non-null  int64  
 2   Fecha                10020 non-null  object 
 3   T

In [7]:

eliminar_nulos(df_trabajo_caracteristicas_equipos)
eliminar_nulos(df_trabajo_historico_ordenes)
eliminar_nulos(df_trabajo_registros_condiciones)


Numero nulos=0
No hay valores nulos
Numero nulos=49
Valores nulos eliminados
Numero nulos=40
Valores nulos eliminados


# Eliminar duplicados:

In [8]:
def procesar_duplicados(df):

    # Identificar duplicados
    duplicados = df[df.duplicated()]
    print("Duplicados encontrados antes de la eliminación:")
    print(duplicados)

    # Contar duplicados por columna
    duplicados_count = df.duplicated().sum()
    print(f"Total de duplicados: {duplicados_count}")

    # Eliminar duplicados
    df.drop_duplicates(inplace=True)
    print("Duplicados eliminados.")

    return


In [9]:
procesar_duplicados(df_trabajo_caracteristicas_equipos)
procesar_duplicados(df_trabajo_historico_ordenes)
procesar_duplicados(df_trabajo_registros_condiciones)

Duplicados encontrados antes de la eliminación:
     ID_Equipo    Tipo_Equipo Fabricante Modelo  Potencia_kW  \
500          1      Compresor    Siemens   Z300       3429.0   
501          2  Transformador    Siemens   Y200         75.0   
502          3      Compresor        ABB   Z300       4526.0   
503          4      Compresor         GE   X100       3981.0   
504          5          Motor    Siemens   Y200        377.0   

     Horas_Recomendadas_Revision  
500                         7725  
501                         7390  
502                         5238  
503                         8933  
504                         5978  
Total de duplicados: 5
Duplicados eliminados.
Duplicados encontrados antes de la eliminación:
       ID_Orden  ID_Equipo                Fecha Tipo_Mantenimiento  \
10000         1         36  2020-01-01 00:00:00         Preventivo   
10001         2        244  2020-01-01 01:00:00         Preventivo   
10002         3        297  2020-01-01 02:00:00      

# Inconsistencias numericas

In [10]:
def corregir_inconsistencias_numericas(df):
    # Selección de columnas numéricas
    numerical_columns_selector = selector(dtype_exclude=object)
    numerical_columns = numerical_columns_selector(df)

    # Corregir inconsistencias en campos numéricos
    for col_name in numerical_columns:
        df[col_name] = pd.to_numeric(df[col_name], errors='coerce')
        df[col_name].fillna(df[col_name].median(), inplace=True)
        print(f"Inconsistencias corregidas en la columna numérica '{col_name}'.")

    return 

In [11]:
corregir_inconsistencias_numericas(df_trabajo_caracteristicas_equipos)
corregir_inconsistencias_numericas(df_trabajo_historico_ordenes)
corregir_inconsistencias_numericas(df_trabajo_registros_condiciones)

Inconsistencias corregidas en la columna numérica 'ID_Equipo'.
Inconsistencias corregidas en la columna numérica 'Potencia_kW'.
Inconsistencias corregidas en la columna numérica 'Horas_Recomendadas_Revision'.
Inconsistencias corregidas en la columna numérica 'ID_Orden'.
Inconsistencias corregidas en la columna numérica 'ID_Equipo'.
Inconsistencias corregidas en la columna numérica 'Costo_Mantenimiento'.
Inconsistencias corregidas en la columna numérica 'Duracion_Horas'.
Inconsistencias corregidas en la columna numérica 'ID_Registro'.
Inconsistencias corregidas en la columna numérica 'ID_Equipo'.
Inconsistencias corregidas en la columna numérica 'Temperatura_C'.
Inconsistencias corregidas en la columna numérica 'Vibracion_mm_s'.
Inconsistencias corregidas en la columna numérica 'Horas_Operativas'.


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col_name].fillna(df[col_name].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col_name].fillna(df[col_name].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which w

# Outliers a efectos practicos:

In [12]:


def procesar_outliers(df):
  
    # Esta función identifica y winsoriza outliers en las columnas numéricas de un DataFrame.

    # Selección de columnas numéricas
    numerical_columns_selector = selector(dtype_exclude=object)
    numerical_columns = numerical_columns_selector(df)

    # Identificación de outliers
    IQR = df[numerical_columns].quantile(0.75) - df[numerical_columns].quantile(0.25)
    lower_bound = df[numerical_columns].quantile(0.25) - (IQR * 1.5)
    upper_bound = df[numerical_columns].quantile(0.75) + (IQR * 1.5)

    # Función para winsorizar una columna
    def winsorize_column(column, lower_bound, upper_bound):
        return column.clip(lower=lower_bound, upper=upper_bound)
    

    # Identificar y mostrar outliers antes de winsorización
    outliers = df[numerical_columns][(df[numerical_columns] < lower_bound) | (df[numerical_columns] > upper_bound)]
    print("Outliers encontrados antes de winsorización:")
    print(outliers)

# Mostrar la suma de outliers por columna
    outliers_count = outliers.count()
    print("Los outlayers encontrados, suma total por columna:")
    for col_name, count in outliers_count.items():
        print(f"{col_name}: {count}")

    # Procesar todas las columnas con outliers
    for col_name in numerical_columns:
        df[col_name] = winsorize_column(df[col_name], lower_bound[col_name], upper_bound[col_name])

    # Verificar outliers después de winsorización
    outliers = df[numerical_columns][(df[numerical_columns] < lower_bound) | (df[numerical_columns] > upper_bound)]
    print("Outliers - winsorized:")
    print(outliers.count())

    return

In [13]:
procesar_outliers(df_trabajo_caracteristicas_equipos)
procesar_outliers(df_trabajo_historico_ordenes)
procesar_outliers(df_trabajo_registros_condiciones)

Outliers encontrados antes de winsorización:
     ID_Equipo  Potencia_kW  Horas_Recomendadas_Revision
0          NaN          NaN                          NaN
1          NaN          NaN                          NaN
2          NaN          NaN                          NaN
3          NaN          NaN                          NaN
4          NaN          NaN                          NaN
..         ...          ...                          ...
495        NaN          NaN                          NaN
496        NaN          NaN                          NaN
497        NaN          NaN                          NaN
498        NaN          NaN                          NaN
499        NaN          NaN                          NaN

[500 rows x 3 columns]
Los outlayers encontrados, suma total por columna:
ID_Equipo: 0
Potencia_kW: 15
Horas_Recomendadas_Revision: 0
Outliers - winsorized:
ID_Equipo                      0
Potencia_kW                    0
Horas_Recomendadas_Revision    0
dtype: int64


Outliers encontrados antes de winsorización:
      ID_Orden  ID_Equipo  Costo_Mantenimiento  Duracion_Horas
0          NaN        NaN                  NaN             NaN
1          NaN        NaN                  NaN             NaN
2          NaN        NaN                  NaN             NaN
3          NaN        NaN                  NaN             NaN
4          NaN        NaN                  NaN             NaN
...        ...        ...                  ...             ...
9995       NaN        NaN                  NaN             NaN
9996       NaN        NaN                  NaN             NaN
9997       NaN        NaN                  NaN             NaN
9998       NaN        NaN                  NaN             NaN
9999       NaN        NaN                  NaN             NaN

[9951 rows x 4 columns]
Los outlayers encontrados, suma total por columna:
ID_Orden: 0
ID_Equipo: 0
Costo_Mantenimiento: 30
Duracion_Horas: 0
Outliers - winsorized:
ID_Orden               0
ID_Equip

# Transformacion fecha

In [14]:
def transformar_fechas(df):

    # Selección de columnas de tipo fecha
    date_columns_selector = selector(dtype_include='object')
    date_columns = date_columns_selector(df)

    # Transformar columnas de fecha a formato datetime
    for col_name in date_columns:
        try:
            df[col_name] = pd.to_datetime(df[col_name])
            print(f"Columna '{col_name}' transformada a formato datetime.")
        except Exception as e:
            print(f"Error al transformar la columna '{col_name}': {e}")

    return

In [15]:
transformar_fechas(df_trabajo_caracteristicas_equipos)
transformar_fechas(df_trabajo_historico_ordenes)
transformar_fechas(df_trabajo_registros_condiciones)

Error al transformar la columna 'Tipo_Equipo': Unknown datetime string format, unable to parse: Compresor, at position 0
Error al transformar la columna 'Fabricante': Unknown datetime string format, unable to parse: Siemens, at position 0
Error al transformar la columna 'Modelo': Unknown datetime string format, unable to parse: Z300, at position 0
Columna 'Fecha' transformada a formato datetime.
Error al transformar la columna 'Tipo_Mantenimiento': Unknown datetime string format, unable to parse: Preventivo, at position 0


  df[col_name] = pd.to_datetime(df[col_name])
  df[col_name] = pd.to_datetime(df[col_name])
  df[col_name] = pd.to_datetime(df[col_name])
  df[col_name] = pd.to_datetime(df[col_name])
  df[col_name] = pd.to_datetime(df[col_name])


Error al transformar la columna 'Ubicacion': Unknown datetime string format, unable to parse: Planta Norte, at position 0
Columna 'Fecha' transformada a formato datetime.


Nuevas columnas, se me ocurren diferencias entre fechas de correctivos

# Informacion tabla ordenes: df_trabajo_historico_ordenes

# Nueva columna frecuencia de correctivo por equipo

In [16]:
# Filtrar solo los registros de mantenimiento correctivo
df_mantenimiento_correctivo = df_trabajo_historico_ordenes[df_trabajo_historico_ordenes['Tipo_Mantenimiento'] == 'Correctivo']

# Calcular la frecuencia de mantenimiento correctivo para cada equipo
df_frecuencia_mantenimiento_correctivo = df_mantenimiento_correctivo['ID_Equipo'].value_counts()

# Mapear la frecuencia al dataframe del histórico de órdenes
df_trabajo_historico_ordenes['Frecuencia de mantenimiento correctivo'] = df_trabajo_historico_ordenes['ID_Equipo'].map(df_frecuencia_mantenimiento_correctivo)


# Informacion tabla ordenes: df_trabajo_registros_condiciones

In [17]:
# Convertir la columna 'Fecha' al formato datetime
df_trabajo_registros_condiciones['Fecha'] = pd.to_datetime(df_trabajo_registros_condiciones['Fecha'])

# Extraer el mes y el año de la columna 'Fecha'
df_trabajo_registros_condiciones['Mes'] = df_trabajo_registros_condiciones['Fecha'].dt.to_period('M')

# Agrupar por 'ID_Equipo' y 'Mes', luego calcular la media de 'Horas_Operativas'
media_horas = df_trabajo_registros_condiciones.groupby(['ID_Equipo', 'Mes'])['Horas_Operativas'].mean().reset_index()

# Unir el DataFrame mean_hours al DataFrame original
df_trabajo_registros_condiciones = df_trabajo_registros_condiciones.merge(media_horas, on=['ID_Equipo', 'Mes'], suffixes=('', '_mean'))

In [18]:
df_trabajo_registros_condiciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8960 entries, 0 to 8959
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID_Registro            8960 non-null   int64         
 1   ID_Equipo              8960 non-null   int64         
 2   Fecha                  8960 non-null   datetime64[ns]
 3   Temperatura_C          8960 non-null   float64       
 4   Vibracion_mm_s         8960 non-null   float64       
 5   Horas_Operativas       8960 non-null   float64       
 6   Mes                    8960 non-null   period[M]     
 7   Horas_Operativas_mean  8960 non-null   float64       
dtypes: datetime64[ns](1), float64(4), int64(2), period[M](1)
memory usage: 560.1 KB


# Grabado de fichero de trabajo

In [19]:
df_trabajo_caracteristicas_equipos.to_csv("../output/df_caracteristicas_equipos_tratados.csv", index=False)
df_trabajo_historico_ordenes.to_csv("../output/df_historico_ordenes_tratados.csv", index=False)
df_trabajo_registros_condiciones.to_csv("../output/df_registros_condiciones_tratados.csv", index=False)

# lectura ficheros de trabajo

In [20]:
try:
    df_trabajo_caracteristicas_equipos = pd.read_csv("../output/df_caracteristicas_equipos_tratados.csv")
    df_trabajo_historico_ordenes = pd.read_csv("../output/df_historico_ordenes_tratados.csv")
    df_trabajo_registros_condiciones = pd.read_csv("../output/df_registros_condiciones_tratados.csv")

except Exception as e:
    print(f"Error al cargar los datos: {str(e)}")


# Merge 

In [21]:

# Convertir las columnas 'Fecha' a formato datetime
df_trabajo_historico_ordenes['Fecha'] = pd.to_datetime(df_trabajo_historico_ordenes['Fecha'])
df_trabajo_registros_condiciones['Fecha'] = pd.to_datetime(df_trabajo_registros_condiciones['Fecha'])

# Mezclar los dataframes basándose en la fecha más cercana
merged_df = pd.merge_asof(df_trabajo_historico_ordenes.sort_values('Fecha'), 
                          df_trabajo_registros_condiciones.sort_values('Fecha'), 
                          on='Fecha', 
                          by='ID_Equipo', 
                          direction='nearest')

# Mezclar con el dataframe de características de equipos
df_final = pd.merge(merged_df, df_trabajo_caracteristicas_equipos, on='ID_Equipo', how='left')

# Guardar el dataframe final mezclado en un nuevo archivo CSV
df_final.to_csv('../output/Datos_Fusionadosv0.csv', index=False)

# Nueva columna Fecha esperada revision (esta despues del merge)

In [22]:
# Inicializar la columna 'Fecha_Revision' con los mismos valores que 'Fecha'
df_final['Fecha_Revision'] = df_final['Fecha']

# Iterar a través del dataframe y actualizar 'Fecha_Revision' para los registros de tipo Preventivo
for i in range(1, len(df_final)):
    if df_final.loc[i, 'Tipo_Mantenimiento'] == 'Preventivo':
        df_final.loc[i, 'Fecha_Revision'] = df_final.loc[i, 'Fecha'] + pd.to_timedelta(df_final.loc[i, 'Horas_Recomendadas_Revision'], unit='h')
    elif df_final.loc[i, 'Tipo_Mantenimiento'] == 'Correctivo':
        df_final.loc[i, 'Fecha_Revision'] = df_final.loc[i-1, 'Fecha_Revision']

# Guardado Final

In [23]:
# Guardar el dataframe final mezclado en un nuevo archivo CSV
df_final.to_csv('../output/Datos_Fusionadosv1.csv', index=False)