In [1]:
# Importación de librerías estándar de Python
import os  # Interacción con el sistema operativo (manejo de archivos/directorios)
import glob  # Búsqueda de archivos usando patrones (ej. *.csv)

# Importación de librerías para cálculo numérico y manejo de datos
import numpy as np  # Operaciones numéricas avanzadas
import pandas as pd  # Estructuras de datos (DataFrames) y análisis

# Visualización de datos
import matplotlib.pyplot as plt  # Gráficos y visualizaciones

# Preprocesamiento de datos (escalado/normalización)
from sklearn.preprocessing import (
    MinMaxScaler,  # Normalización a rangos (ej. [0, 1])
    StandardScaler,  # Estandarización (media=0, desviación=1)
    RobustScaler  # Escalado robusto a outliers
)

# Persistencia de modelos (guardar/cargar)
import joblib  # Alternativa a pickle para objetos de scikit-learn

# Configuración de IPython/Jupyter para mostrar todas las salidas de celdas
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"  # Muestra múltiples outputs sin necesidad de print()

In [2]:
# Cargar archivo CSV desde una ruta específica
# - 'os.path.join' evita problemas con barras en diferentes sistemas operativos
# - La ruta apunta a 'DataAceites.csv' en la carpeta 'comp' del escritorio
file = os.path.join('C:/Users/Alumno/Desktop/comp', 'DataAceites.csv')

# Leer el archivo CSV y cargarlo en un DataFrame de pandas
df1 = pd.read_csv(file)

# Crear un diccionario con metadatos del DataFrame
attrs = {
    'var': 'df1',                # Nombre de la variable
    'type': type(df1).__name__,  # Tipo de objeto (ej. 'DataFrame')
}

# Mostrar los metadatos (el resultado es idéntico al código original)
[attrs]

# Mostrar el DataFrame (esto ejecutará la visualización en Jupyter/IPython)
df1

[{'var': 'df1', 'type': 'DataFrame'}]

Unnamed: 0,Fierro,Cromo,Aluminio,Cobre,Plomo,Nickel,Plata,Estano,Titanio,Vanadio,...,Oxidacion,Partículas > 4um,Partículas > 6um,Partículas > 14um,Family,Estado,Diagnostic,Comentario,Recomendacion,Unnamed: 34
0,305835,4.6,0.1,0.1,2.1,0.8,0.1,0.1,0.6,0.1,...,5,3.41,59773,13379,2215,Pumps,Normal,Normal,Niveles de desgaste y contaminaciones externas...,Continuar con monitoreo tribológico según plan...
1,35359,8.9,0.1,0.2,7.4,13.4,0.1,0.1,1.5,0.1,...,0,1.34,100707,19985,1602,Pumps,Normal,Normal,Se evidencia un cambio de lubricante determina...,Continuar con monitoreo de lubricante y compon...
2,40110,18.6,0.2,0.6,17.8,5.6,0.2,0.1,0.9,0.1,...,5,2.10,175972,35857,1438,Pumps,Normal,Normal,Tendencia de Viscosidad determina proceso de l...,Continuar con monitoreo de lubricante y compon...
3,41584,10.9,0.1,0.5,8.1,3.1,0.1,0.1,2.1,0.1,...,5,3.14,66324,12836,498,Pumps,Normal,Normal,Las características determinadas a la muestra ...,Continuar con monitoreo según plan de mantenim...
4,44097,24.8,0.4,2.3,4.5,3.2,0.2,0.1,0.2,0.2,...,20,1.64,251923,34960,480,Pumps,Normal,Normal,Las características determinadas a la muestra ...,Continuar con monitoreo según plan de mantenim...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12499,288654,1.2,0.1,0.1,3.9,0.1,0.1,0.1,1.5,0.1,...,10,2.03,71963,16835,954,Shafts,Alerta,Oil Contamination,Niveles de desgaste y contaminaciones externas...,Se sugiere realizar seguimiento según plan de ...
12500,36864,10.1,0.8,0.1,2.9,8.4,0.1,0.1,33.8,0.1,...,5,1.46,694905,112978,2194,Shafts,Anormal,Oil Contamination,Se aprecia incremento significativo en las con...,"Se sugiere evaluar con contra muestra, analiza..."
12501,124485,8.1,0.1,0.1,1.7,0.1,0.1,0.1,4.8,0.1,...,10,1.53,82773,15980,340,Shafts,Alerta,Oil Contamination,Se determina descenso considerable en el grado...,Se sugiere enviar contramuestra para evaluar g...
12502,165144,0.1,0.1,0.1,1.0,0.1,0.1,0.1,0.1,0.1,...,5,2.65,3479,1939,286,Shafts,Alerta,Oil Contamination,Niveles de desgaste y contaminaciones externas...,Evaluar precisión de servicio estabilizar visc...


In [3]:
# Renombrar columnas del DataFrame para estandarizar nombres
# Se realiza un mapeo completo de nombres antiguos -> nuevos
df1 = df1.rename(columns={
    'Fierro': 'ID',                   # Renombrado a identificador único
    'Cromo': 'FIERRO',                # Metales pesados y elementos
    'Aluminio': 'CROMO',              # (nota: hay un desplazamiento de nombres)
    'Cobre': 'ALUMINIO',
    'Plomo': 'COBRE',
    'Nickel': 'PLOMO',
    'Plata': 'NICKEL',
    'Estano': 'PLATA',
    'Titanio': 'ESTANO',
    'Vanadio': 'TITANIO',
    'Cadmio': 'VANADIO',
    'Manganeso': 'CADMIO',
    'Sodio': 'MANGANESO',
    'Potasio': 'SODIO',
    'Silicio': 'POTASIO',
    'Zinc': 'SILICIO',
    'Bario': 'ZINC',
    'Boro': 'BARIO',
    'Calcio': 'BORO',
    'Molibdeno': 'CALCIO',
    'Magnesio': 'MOLIBDENO',
    'Fosforo': 'MAGNESIO',
    'v 40': 'FOSFORO',                # Variable numérica
    'Contenido agua': 'V40',          # Intercambio de nombres
    'Índice PQ': 'CONTENIDO DE AGUA', # Parámetros de calidad
    'Oxidacion': 'ÍNDICE PQ',
    'Partículas > 4um': 'OXIDACIÓN',  # Contaminación particulada
    'Partículas > 6um': 'PARTICULAS > 4um',
    'Partículas > 14um': 'Partículas > 6um',
    'Family': 'Partículas > 14um',    # Campo categórico
    'Estado': 'Family',               # Reordenamiento de metadatos
    'Diagnostic': 'Estado',
    'Comentario': 'Diagnostic',
    'Recomendacion': 'Comentario',
    'Unnamed: 34': 'Recomendacion'    # Columna sin nombre original
})

# Crear diccionario de metadatos del DataFrame
attrs = {
    'var': 'df1',                # Nombre de la variable
    'type': type(df1).__name__,  # Tipo de objeto ('DataFrame')
}

# Mostrar metadatos y el DataFrame resultante
[attrs]
df1

[{'var': 'df1', 'type': 'DataFrame'}]

Unnamed: 0,ID,FIERRO,CROMO,ALUMINIO,COBRE,PLOMO,NICKEL,PLATA,ESTANO,TITANIO,...,ÍNDICE PQ,OXIDACIÓN,PARTICULAS > 4um,Partículas > 6um,Partículas > 14um,Family,Estado,Diagnostic,Comentario,Recomendacion
0,305835,4.6,0.1,0.1,2.1,0.8,0.1,0.1,0.6,0.1,...,5,3.41,59773,13379,2215,Pumps,Normal,Normal,Niveles de desgaste y contaminaciones externas...,Continuar con monitoreo tribológico según plan...
1,35359,8.9,0.1,0.2,7.4,13.4,0.1,0.1,1.5,0.1,...,0,1.34,100707,19985,1602,Pumps,Normal,Normal,Se evidencia un cambio de lubricante determina...,Continuar con monitoreo de lubricante y compon...
2,40110,18.6,0.2,0.6,17.8,5.6,0.2,0.1,0.9,0.1,...,5,2.10,175972,35857,1438,Pumps,Normal,Normal,Tendencia de Viscosidad determina proceso de l...,Continuar con monitoreo de lubricante y compon...
3,41584,10.9,0.1,0.5,8.1,3.1,0.1,0.1,2.1,0.1,...,5,3.14,66324,12836,498,Pumps,Normal,Normal,Las características determinadas a la muestra ...,Continuar con monitoreo según plan de mantenim...
4,44097,24.8,0.4,2.3,4.5,3.2,0.2,0.1,0.2,0.2,...,20,1.64,251923,34960,480,Pumps,Normal,Normal,Las características determinadas a la muestra ...,Continuar con monitoreo según plan de mantenim...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12499,288654,1.2,0.1,0.1,3.9,0.1,0.1,0.1,1.5,0.1,...,10,2.03,71963,16835,954,Shafts,Alerta,Oil Contamination,Niveles de desgaste y contaminaciones externas...,Se sugiere realizar seguimiento según plan de ...
12500,36864,10.1,0.8,0.1,2.9,8.4,0.1,0.1,33.8,0.1,...,5,1.46,694905,112978,2194,Shafts,Anormal,Oil Contamination,Se aprecia incremento significativo en las con...,"Se sugiere evaluar con contra muestra, analiza..."
12501,124485,8.1,0.1,0.1,1.7,0.1,0.1,0.1,4.8,0.1,...,10,1.53,82773,15980,340,Shafts,Alerta,Oil Contamination,Se determina descenso considerable en el grado...,Se sugiere enviar contramuestra para evaluar g...
12502,165144,0.1,0.1,0.1,1.0,0.1,0.1,0.1,0.1,0.1,...,5,2.65,3479,1939,286,Shafts,Alerta,Oil Contamination,Niveles de desgaste y contaminaciones externas...,Evaluar precisión de servicio estabilizar visc...


In [4]:
# Eliminar columnas innecesarias del DataFrame
# - 'axis='columns'' especifica que se eliminarán columnas (no filas)
# - Las columnas eliminadas son metadatos o identificadores no relevantes para el análisis
df1 = df1.drop([
    'ID',               # Identificador único (no necesario para modelado)
    'Estado',           # Variable categórica probablemente redundante
    'Recomendacion',    # Texto libre (no estructurado para análisis)
    'Comentario',       # Observaciones cualitativas
], axis='columns')

# Crear diccionario de metadatos para verificación
attrs = {
    'var': 'df1',                # Nombre de la variable en el namespace
    'type': type(df1).__name__,  # Tipo de objeto (DataFrame)
}

# Mostrar metadatos y el DataFrame resultante
# - [attrs] muestra el tipo y nombre en entornos interactivos (Jupyter)
# - df1 muestra el DataFrame sin las columnas eliminadas
[attrs]
df1

[{'var': 'df1', 'type': 'DataFrame'}]

Unnamed: 0,FIERRO,CROMO,ALUMINIO,COBRE,PLOMO,NICKEL,PLATA,ESTANO,TITANIO,VANADIO,...,FOSFORO,V40,CONTENIDO DE AGUA,ÍNDICE PQ,OXIDACIÓN,PARTICULAS > 4um,Partículas > 6um,Partículas > 14um,Family,Diagnostic
0,4.6,0.1,0.1,2.1,0.8,0.1,0.1,0.6,0.1,0.1,...,171.0,325.45,0.0,5,3.41,59773,13379,2215,Pumps,Normal
1,8.9,0.1,0.2,7.4,13.4,0.1,0.1,1.5,0.1,0.1,...,0.1,46.61,0.0,0,1.34,100707,19985,1602,Pumps,Normal
2,18.6,0.2,0.6,17.8,5.6,0.2,0.1,0.9,0.1,0.1,...,0.1,45.87,0.0,5,2.10,175972,35857,1438,Pumps,Normal
3,10.9,0.1,0.5,8.1,3.1,0.1,0.1,2.1,0.1,0.3,...,0.1,44.18,0.0,5,3.14,66324,12836,498,Pumps,Normal
4,24.8,0.4,2.3,4.5,3.2,0.2,0.1,0.2,0.2,0.2,...,0.1,44.71,0.0,20,1.64,251923,34960,480,Pumps,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12499,1.2,0.1,0.1,3.9,0.1,0.1,0.1,1.5,0.1,0.1,...,0.1,32.28,0.0,10,2.03,71963,16835,954,Shafts,Oil Contamination
12500,10.1,0.8,0.1,2.9,8.4,0.1,0.1,33.8,0.1,0.1,...,0.1,46.81,0.0,5,1.46,694905,112978,2194,Shafts,Oil Contamination
12501,8.1,0.1,0.1,1.7,0.1,0.1,0.1,4.8,0.1,0.3,...,0.1,35.30,0.0,10,1.53,82773,15980,340,Shafts,Oil Contamination
12502,0.1,0.1,0.1,1.0,0.1,0.1,0.1,0.1,0.1,0.6,...,0.1,37.44,0.0,5,2.65,3479,1939,286,Shafts,Oil Contamination


In [5]:
# Renombrar columna clave para mayor claridad semántica
# - Cambia 'Diagnostic' (genérico) por 'Estado de salud' (descriptivo)
# - Esto facilita la interpretación en análisis posteriores
df1 = df1.rename(columns={
    'Diagnostic': 'Estado de salud',  # Variable objetivo/categórica crítica
})

# Verificación de metadatos post-modificación
attrs = {
    'var': 'df1',                # Nombre del DataFrame
    'type': type(df1).__name__,  # Tipo de objeto (consistencia)
}

# Visualización de confirmación:
# - [attrs] muestra la estructura básica del objeto
# - df1 muestra el DataFrame con el nuevo nombre de columna
[attrs]
df1

[{'var': 'df1', 'type': 'DataFrame'}]

Unnamed: 0,FIERRO,CROMO,ALUMINIO,COBRE,PLOMO,NICKEL,PLATA,ESTANO,TITANIO,VANADIO,...,FOSFORO,V40,CONTENIDO DE AGUA,ÍNDICE PQ,OXIDACIÓN,PARTICULAS > 4um,Partículas > 6um,Partículas > 14um,Family,Estado de salud
0,4.6,0.1,0.1,2.1,0.8,0.1,0.1,0.6,0.1,0.1,...,171.0,325.45,0.0,5,3.41,59773,13379,2215,Pumps,Normal
1,8.9,0.1,0.2,7.4,13.4,0.1,0.1,1.5,0.1,0.1,...,0.1,46.61,0.0,0,1.34,100707,19985,1602,Pumps,Normal
2,18.6,0.2,0.6,17.8,5.6,0.2,0.1,0.9,0.1,0.1,...,0.1,45.87,0.0,5,2.10,175972,35857,1438,Pumps,Normal
3,10.9,0.1,0.5,8.1,3.1,0.1,0.1,2.1,0.1,0.3,...,0.1,44.18,0.0,5,3.14,66324,12836,498,Pumps,Normal
4,24.8,0.4,2.3,4.5,3.2,0.2,0.1,0.2,0.2,0.2,...,0.1,44.71,0.0,20,1.64,251923,34960,480,Pumps,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12499,1.2,0.1,0.1,3.9,0.1,0.1,0.1,1.5,0.1,0.1,...,0.1,32.28,0.0,10,2.03,71963,16835,954,Shafts,Oil Contamination
12500,10.1,0.8,0.1,2.9,8.4,0.1,0.1,33.8,0.1,0.1,...,0.1,46.81,0.0,5,1.46,694905,112978,2194,Shafts,Oil Contamination
12501,8.1,0.1,0.1,1.7,0.1,0.1,0.1,4.8,0.1,0.3,...,0.1,35.30,0.0,10,1.53,82773,15980,340,Shafts,Oil Contamination
12502,0.1,0.1,0.1,1.0,0.1,0.1,0.1,0.1,0.1,0.6,...,0.1,37.44,0.0,5,2.65,3479,1939,286,Shafts,Oil Contamination


In [6]:
# Transformación de categorías a códigos numéricos
df1['Estado de salud'] = df1['Estado de salud'].replace({
    'Normal': 0,
    'Component Wear': 1,
    'Silica ISO 4406': 2,
    'Oil Contamination': 3,
    'Silica and Wear': 4, 
    'Water Contamination': 5
})

# Verificación de metadatos
attrs = {'var': 'df1', 'type': 'DataFrame'}
[attrs]
df1

  df1['Estado de salud'] = df1['Estado de salud'].replace({


[{'var': 'df1', 'type': 'DataFrame'}]

Unnamed: 0,FIERRO,CROMO,ALUMINIO,COBRE,PLOMO,NICKEL,PLATA,ESTANO,TITANIO,VANADIO,...,FOSFORO,V40,CONTENIDO DE AGUA,ÍNDICE PQ,OXIDACIÓN,PARTICULAS > 4um,Partículas > 6um,Partículas > 14um,Family,Estado de salud
0,4.6,0.1,0.1,2.1,0.8,0.1,0.1,0.6,0.1,0.1,...,171.0,325.45,0.0,5,3.41,59773,13379,2215,Pumps,0
1,8.9,0.1,0.2,7.4,13.4,0.1,0.1,1.5,0.1,0.1,...,0.1,46.61,0.0,0,1.34,100707,19985,1602,Pumps,0
2,18.6,0.2,0.6,17.8,5.6,0.2,0.1,0.9,0.1,0.1,...,0.1,45.87,0.0,5,2.10,175972,35857,1438,Pumps,0
3,10.9,0.1,0.5,8.1,3.1,0.1,0.1,2.1,0.1,0.3,...,0.1,44.18,0.0,5,3.14,66324,12836,498,Pumps,0
4,24.8,0.4,2.3,4.5,3.2,0.2,0.1,0.2,0.2,0.2,...,0.1,44.71,0.0,20,1.64,251923,34960,480,Pumps,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12499,1.2,0.1,0.1,3.9,0.1,0.1,0.1,1.5,0.1,0.1,...,0.1,32.28,0.0,10,2.03,71963,16835,954,Shafts,3
12500,10.1,0.8,0.1,2.9,8.4,0.1,0.1,33.8,0.1,0.1,...,0.1,46.81,0.0,5,1.46,694905,112978,2194,Shafts,3
12501,8.1,0.1,0.1,1.7,0.1,0.1,0.1,4.8,0.1,0.3,...,0.1,35.30,0.0,10,1.53,82773,15980,340,Shafts,3
12502,0.1,0.1,0.1,1.0,0.1,0.1,0.1,0.1,0.1,0.6,...,0.1,37.44,0.0,5,2.65,3479,1939,286,Shafts,3
