"""
Proyecto de Predicción de Fallos en Equipos Industriales (Versión Mejorada)
Autor: Gonzalo Cisterna Salinas
Descripción: Este notebook contiene un flujo completo de ciencia de datos para la predicción
de fallas en equipos industriales, usando Python y librerías como pandas, numpy, scikit-learn.
"""

In [1]:
# =================================
# CELDA 1: IMPORTACIONES
# =================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Librerías de scikit-learn
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (
    accuracy_score,
    classification_report,
    confusion_matrix
)

# Para ver las gráficas directamente en el Notebook
%matplotlib inline

In [2]:
# ===============================
# CELDA 2: CARGA DEL DATASET
# ===============================

# Comentario: Leemos el archivo CSV que contiene los datos. Ajusta la ruta si es necesario.
# Asegúrate de tener el archivo 'machine_failure_data.csv' en la misma carpeta que este notebook
# o en la ruta adecuada.
df = pd.read_csv('machine_failure_data.csv')

# Comentario: Vemos las primeras filas para confirmar la lectura correcta de datos.
df.head()

Unnamed: 0,temp_sensor,vibration_sensor,pressure_sensor,hours_since_maintenance,machine_type,failure
0,79.967142,4.185806,105.224294,891,TypeA,0
1,73.617357,4.633401,104.249854,497,TypeB,0
2,81.476885,4.283143,85.952202,959,TypeC,0
3,90.230299,5.132502,108.693763,875,TypeB,0
4,72.658466,6.436614,77.64876,963,TypeC,1


In [3]:
# ===============================
# CELDA 3: EXPLORACIÓN INICIAL DE DATOS
# ===============================

# Comentario: Observamos la dimensión (filas x columnas).
print("Dimensiones del dataset:", df.shape)

# Comentario: Vemos el tipo de cada columna, número de valores no nulos, etc.
df.info()

# Comentario: Descripción estadística de variables numéricas (promedio, desviación, etc.).
df.describe()

# Comentario: Checamos si hay valores nulos en cada columna.
df.isnull().sum()

Dimensiones del dataset: (10000, 6)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   temp_sensor              10000 non-null  float64
 1   vibration_sensor         10000 non-null  float64
 2   pressure_sensor          10000 non-null  float64
 3   hours_since_maintenance  10000 non-null  int64  
 4   machine_type             10000 non-null  object 
 5   failure                  10000 non-null  int64  
dtypes: float64(3), int64(2), object(1)
memory usage: 468.9+ KB


temp_sensor                0
vibration_sensor           0
pressure_sensor            0
hours_since_maintenance    0
machine_type               0
failure                    0
dtype: int64