<a href="https://colab.research.google.com/github/MisGall10/Practica_17_Misael_Gallardo/blob/main/Practica17GACM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto de Programación para Analítica Descriptiva y Predictiva**
## Nombre del Proyecto: Analisís predictivo del mantenimiento de máquinas
## Grupo: B
## Autor: Misael Adrian Gallardo Cadillo
## Matrícula: 255859
## Fecha: TBD

# **1. Introducción**

## - Descripción del problema: En la industria manufacturera, el mantenimiento de las máquinas es crucial para evitar fallas inesperadas que pueden causar tiempos de inactividad costosos, reducir la eficiencia operativa y aumentar los costos de producción.

## - Objetivo del análisis: El objetivo de este proyecto es analizar los datos de sensores de las máquinas para desarrollar un modelo de mantenimiento predictivo que permita anticipar fallas y optimizar los tiempos de mantenimiento.

## - Fuente de datos: KAGGLE [Machine Predictive Maintenance Classification] (https://www.kaggle.com/datasets/shivamb/machine-predictive-maintenance-classification)


# **2. Captura y Carga de Datos**

Fuente de datos:

 * Este dataset proviene de un entorno de mantenimiento predictivo de máquinas, probablemente generado por sensores industriales que monitorean condiciones operativas en tiempo real.

* El dataset se encuentra en formato CSV (Comma-Separated Values), un formato de texto ampliamente utilizado para almacenar datos tabulares.

* El dataset contiene 10,000 observaciones (filas) y 10 variables (columnas).


Al cargar los datos, algunos problemas comunes pueden incluir:

* Valores nulos o faltantes, que podrían afectar el análisis.
* Tipos de datos incorrectos, como números almacenados como texto.
* Valores atípicos, que podrían distorsionar el análisis.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


#**3.Transformación y Preprocesamiento - Data Wrangling**

## - Identificación de Tipos de Datos

Encontramos que el data set contiente:
* 4 columnas con datos de tipo entero `int` ('UDI' , 'Rotational speed [rpm]' , 'Tool wear [min]' , 'Target')
* 3 columnas con datos de tipo entero `float` ('Air temperature [K]' , 'Process temperature [K]' , 'Torque [Nm]')
* 3 columnas con datos de tipo entero `object` ('Product ID' , 'Type' , 'Failure Type')

In [None]:
import pandas as pd

# Cargamos el dataset con ayuda de pandass
df = pd.read_csv('/content/drive/MyDrive/ClassFiles/Programacion/Proyecto/predictive_maintenance.csv')

# Impriimos informacion general del dataset para ver el tipo de dato por columna
print("Información general del dataset: \n")
print(df.info())


Información general del dataset: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   UDI                      10000 non-null  int64  
 1   Product ID               10000 non-null  object 
 2   Type                     10000 non-null  object 
 3   Air temperature [K]      10000 non-null  float64
 4   Process temperature [K]  10000 non-null  float64
 5   Rotational speed [rpm]   10000 non-null  int64  
 6   Torque [Nm]              10000 non-null  float64
 7   Tool wear [min]          10000 non-null  int64  
 8   Target                   10000 non-null  int64  
 9   Failure Type             10000 non-null  object 
dtypes: float64(3), int64(4), object(3)
memory usage: 781.4+ KB
None


## - Cantidad de valores nulos

El dataset contiene todos las columnas con valores, por lo tanto, no existen valores nulos.

In [None]:
# Contar los valores nulos por columna
print("Cantidad de valores nulos por columna: \n")
print(df.isnull().sum())

Cantidad de valores nulos por columna: 

UDI                        0
Product ID                 0
Type                       0
Air temperature [K]        0
Process temperature [K]    0
Rotational speed [rpm]     0
Torque [Nm]                0
Tool wear [min]            0
Target                     0
Failure Type               0
dtype: int64


##- Problemáticas encontradas:

* Hay titulos de columnas con mayusculas y minusculas. Solucion: Poner todo en minusculas



In [None]:
#Utilzamosel comando .str.lower para hacer minusculas todos los caracteres de los titulos.
df.columns = df.columns.str.lower()
#Imprimimos la informacion de las columnas para comprobar el cambio
print("Nombres de columnas en minusculas: \n")
print(df.info())

Nombres de columnas en minusculas: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   udi                      10000 non-null  int64  
 1   product id               10000 non-null  object 
 2   type                     10000 non-null  object 
 3   air temperature [k]      10000 non-null  float64
 4   process temperature [k]  10000 non-null  float64
 5   rotational speed [rpm]   10000 non-null  int64  
 6   torque [nm]              10000 non-null  float64
 7   tool wear [min]          10000 non-null  int64  
 8   target                   10000 non-null  int64  
 9   failure type             10000 non-null  object 
dtypes: float64(3), int64(4), object(3)
memory usage: 781.4+ KB
None


* Exiten espacios en algunos titulos de columnas. Solucion: Cambiar los espacios por un guin bajo

In [None]:
#Utilzamosel comando .str.lower para hacer minusculas todos los caracteres de los titulos.
df.columns = df.columns.str.replace(' ', '_')
#Imprimimos la informacion de las columnas para comprobar el cambio
print("Nombres de columnas sin espacios: \n")
print(df.info())

Nombres de columnas sin espacios: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   udi                      10000 non-null  int64  
 1   product_id               10000 non-null  object 
 2   type                     10000 non-null  object 
 3   air_temperature_[k]      10000 non-null  float64
 4   process_temperature_[k]  10000 non-null  float64
 5   rotational_speed_[rpm]   10000 non-null  int64  
 6   torque_[nm]              10000 non-null  float64
 7   tool_wear_[min]          10000 non-null  int64  
 8   target                   10000 non-null  int64  
 9   failure_type             10000 non-null  object 
dtypes: float64(3), int64(4), object(3)
memory usage: 781.4+ KB
None


* Existen caracteres especiales en algunas columnas (indicando las unidades de los datos). Solucion: Los eliminaremos.

In [None]:
#Con ayudad de .str.replace y expresiones regulares eliminanmos los caracteres
#especiales y lo que esta dentro, asi como los guines bajos que quedan antes de
#las unidades
df.columns = df.columns.str.replace(r'\s?[_]*\[[^\]]*\]', '', regex=True)
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   udi                  10000 non-null  int64  
 1   product_id           10000 non-null  object 
 2   type                 10000 non-null  object 
 3   air_temperature      10000 non-null  float64
 4   process_temperature  10000 non-null  float64
 5   rotational_speed     10000 non-null  int64  
 6   torque               10000 non-null  float64
 7   tool_wear            10000 non-null  int64  
 8   target               10000 non-null  int64  
 9   failure_type         10000 non-null  object 
dtypes: float64(3), int64(4), object(3)
memory usage: 781.4+ KB
None


* Verificamos si exiten Outliers en las columnas con datos numericos

In [None]:
import pandas as pd
import numpy as np

#Obtenemos unicamente las columnas con valor numerico
numerical_columns = df.select_dtypes(include=[np.number])
#Eliminamos las columnas 'udi' y 'target' que no son de interes por el momento
numerical_columns = numerical_columns.drop(columns=['udi', 'target'], errors='ignore')
#Obtenemos el resumen estadistico de las columnas de interes
print('Resumen estadistico por columna \n')
print(numerical_columns.describe())
#Obtenemos para cada columna la desviación estándar
print('Desviación estándar por columna \n')
print(numerical_columns.std())
# Iteramos sobre las columnas para encontrar los valores atípicos
for columna in numerical_columns:
    columna_data = df[columna]
    atipicos = columna_data[(np.abs(columna_data - columna_data.mean()) > (3 * columna_data.std()))]
    if atipicos.empty:
        print(f'No se encontraron valores atípicos en la columna "{columna}".')
    else:
      print(f'Cantidad de valores atípicos en la columna "{columna}":')
      print(atipicos.count())

Resumen estadistico por columna 

       air_temperature  process_temperature  rotational_speed        torque  \
count     10000.000000         10000.000000      10000.000000  10000.000000   
mean        300.004930           310.005560       1538.776100     39.986910   
std           2.000259             1.483734        179.284096      9.968934   
min         295.300000           305.700000       1168.000000      3.800000   
25%         298.300000           308.800000       1423.000000     33.200000   
50%         300.100000           310.100000       1503.000000     40.100000   
75%         301.500000           311.100000       1612.000000     46.800000   
max         304.500000           313.800000       2886.000000     76.600000   

          tool_wear  
count  10000.000000  
mean     107.951000  
std       63.654147  
min        0.000000  
25%       53.000000  
50%      108.000000  
75%      162.000000  
max      253.000000  
Desviación estándar por columna 

air_temperature       

# **4. Análisis Descriptivo de Datos**

## - Preguntas a responder con el AD
## - Explicación de Estadísticas Básicas Aplicadas, Visualización de Datos con Gráficos, y Resumen de las respuestas

# **5. Análisis Exploratorio de los Datos**

## - Preguntas a responder
## - Estadísticas Empleadas, visualización y Resumen de las respuestas encontradas.

# **6. Análisis Predictivo**

## - Preprocesamiento para Análisis Predictivo: Problemas, Técnicas y Código

## - Modelado Predictivo
### - Modelo elegido y parámetros
### - Entrenamiento y Evaluación
## - Resultados


# **7. Conclusiones y Trabajos Futuros**

## - Resumen del trabajo realizado, hallazgos y posibles mejoras