#                                                          Unidad 1

# Proyecto: Minería de Datos para la Automatización del Monitoreo de Infraestructura TI: Un Enfoque Predictivo con Zabbix 

## Metodología: CRISP-DM 
En este proyecto se aplica la metodología CRISP-DM (Cross Industry Standard Process for Data Mining), la cual establece un proceso estructurado para el desarrollo de proyectos de minería de datos. El flujo que se seguirá en esta primera etapa comprende las fases:

 → Business Understanding → Data Understanding → Data Preparation  → Modelado (Modeling)

##  **Integrantes:**   

- Ruben Mark Salazar Tocas
- Elias Uziel Sauñe Fernadez
  
## Fecha del informe: [dd/mm/aaaa]

## Fase 1 – Business Understanding (Comprensión del Negocio)

### 1.1. Problema de negocio

### 1.2. Objetivo general

Construir un modelo que prediga si un automóvil estará **APPROVED** (`APPROVED = 1`, `DISAPPROVED = 0`) para circular por las calles de **San Isidro, Lima** usando características del vehículo (sin usar o sin medir datos de emisiones de gases)

### 1.5. Criterios de éxito



Técnico:
- Alcanzar métricas de predicción satisfactorias (RMSE bajo, MAPE ≤ 10%) en CPU y RAM.

- Demostrar que el modelo LSTM supera a enfoques lineales como ARIMA en la gestión de ruido y picos atípicos.

De negocio:

- Que Zabbix reciba predicciones con al menos 15–30 minutos de anticipación antes de que se produzca una saturación real.

- Disminuir el número de falsos positivos en alertas respecto a métodos tradicionales.

Social/Operativo:

- Contribuir a la continuidad del servicio TI, reduciendo caídas imprevistas y tiempos de inactividad.

- Optimizar el uso de recursos humanos y económicos mediante la prevención en lugar de la reacción.

## Fase 2. Data Understanding

### 📥 2. Data collection 

In [1]:
import pandas as pd
import numpy as np

'''
df_p1 = pd.read_csv("in_data_cruda_p1_27072025.csv", 
                    encoding='utf-8',      # o 'latin-1' si hay caracteres especiales
                    sep=';',               # separador (por defecto es coma)
                    header=0,              # fila que contiene los nombres de columnas
                    index_col=None)        # si quieres usar una columna como índice
'''
df = pd.read_excel("CAMPANADESENSIBILIZACIONRESPIRAAIRELIMPIO_X.xlsx")


FileNotFoundError: [Errno 2] No such file or directory: 'CAMPANADESENSIBILIZACIONRESPIRAAIRELIMPIO_X.xlsx'

In [None]:
# Resumen general
df.info()
print('df.columns:',df.columns)
print('df.shape:',df.shape)
df.head(10)

### 📊 3. Descriptive analysis

#### 3.1 Análisis descriptivo

In [None]:
#Resumen estadístico de todas las variables (describe()).
df.describe(include="all").T # incluye categóricas y numéricas

In [None]:
# Separar los datos segú sus Tipos de variables (numéricas, categóricas). fechas se considera como cat aunque también puedes separr
numeric_data = df.select_dtypes(include=[np.number])
categor_data = df.select_dtypes(exclude=[np.number])
print ("There are {} numeric and {} categorical columns in train data".format(numeric_data.shape[1],categor_data.shape[1]))

In [None]:
numeric_data.describe().T
# Puedes ver la Distribución de variables numéricas (cantidad o freq, media, mediana, desviación estándar, mín, máx. etc.).

In [None]:
categor_data.describe(include="all").T
# Puedes ver valores únicos en categóricas (ej. State, Vehicle type, Fuel type), freq, etc.

In [None]:
# Conteo de valores únicos en categóricas
for col in ['Intervention type','Vehicle type','Fuel type','State']:
    print(f"\n{col}:\n", df[col].value_counts())

# Conteo de la variable objetivo, 
df["State"].value_counts()

#### 3.2 Análisis descriptivo (gráficos)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histograma de año de vehículo
plt.figure(figsize=(8,5))
sns.histplot(df['Vehicle year'], bins=30, kde=True)
plt.title("Distribución del año de fabricación")
plt.show()

# Boxplot de edad de vehículo por estado
plt.figure(figsize=(6,5))
sns.boxplot(x='State', y='Vehicle age', data=df)
plt.title("Edad del vehículo vs Estado")
plt.show()

# Conteo de combustible
plt.figure(figsize=(6,4))
sns.countplot(data=df, x='Fuel type', order=df['Fuel type'].value_counts().index)
plt.title("Distribución por tipo de combustible")
plt.xticks(rotation=45)
plt.show()


#### 3.3 Análisis exploratorio (con estadísticas): Correlaciones y cruces de variables

In [None]:
# Correlaciones numéricas
plt.figure(figsize=(10,8))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Matriz de correlaciones")
plt.show()

# Cruce de variables categóricas con el objetivo
pd.crosstab(df['Fuel type'], df['State'], normalize='index') * 100


#### 3.4 Diagnóstico de calidad inicial 

In [None]:
# Valores faltantes
print(df.isnull().sum())

# Posibles inconsistencias
print("Mínimo y máximo año:", df['Vehicle year'].min(), df['Vehicle year'].max())
print("Mínimo y máximo edad:", df['Vehicle age'].min(), df['Vehicle age'].max())

# Distribución de la variable objetivo
sns.countplot(x='State', data=df)
plt.title("Distribución del estado (Approved vs Disapproved)")
plt.show()


In [None]:
'''
Valores faltantes: identificar y cuantificar (df.isnull().sum()).
Posibles inconsistencias :
    Años fuera de rango (ej. vehículos con Vehicle year futuro).
    Edades negativas o mayores a 50 años.
Distribución de la variable objetivo (State): revisar balance entre APPROVED y DISAPPROVED.
'''
na_counts = df.isna().sum().sort_values(ascending=False)
na_pct = (na_counts/len(df)*100).round(2)
quality_missing = pd.DataFrame({'missing': na_counts, 'missing_%': na_pct})
display(quality_missing)

df['_Date_dt'] = pd.to_datetime(df['Date'], errors='coerce', dayfirst=True)
dup_keys = df.duplicated(subset=['Vehicle plate','_Date_dt'])
print('Registros potencialmente duplicados:', dup_keys.sum())

suspects = df[(df['CO2 percVol']>25) | (df['CO percVol']>12.5) | (df['HC ppm']>5000)]
print('Registros sospechosos (CO2>25% o CO>12.5% o HC>5000):', len(suspects))
display(suspects[['Date','Vehicle plate','CO percVol','HC ppm','CO2 percVol','State']].head())


#### 3.5 Perfil estadístico comparativo (Aprobados vs Desaprobados)

In [None]:
# Medias comparativas numéricas
df.groupby('State').mean(numeric_only=True)

In [None]:
# Comparación gráfica de variables numéricas
plt.figure(figsize=(8,5))
sns.histplot(data=df, x='Vehicle age', hue='State', kde=True, bins=30)
plt.title("Edad del vehículo según estado")
plt.show()

In [None]:
perfil_num = df.groupby('State')[['Vehicle age','CO percVol','HC ppm','CO2 percVol']]
perfil_num = perfil_num.agg(['mean','median','std','min','max']).round(3)
display(perfil_num)

perfil_cat_fuel = pd.crosstab(df['Fuel type'], df['State'], normalize='columns')*100
perfil_cat_type = pd.crosstab(df['Vehicle type'], df['State'], normalize='columns')*100
display(perfil_cat_fuel.round(2))
display(perfil_cat_type.round(2))

perfil_num.to_csv('perfil_numerico_por_estado.csv')
perfil_cat_fuel.to_csv('perfil_combustible_por_estado.csv')
perfil_cat_type.to_csv('perfil_tipovehiculo_por_estado.csv')
print('Archivos CSV exportados.')

### 3.6 Hallazgos

#### Hallazgos del Paso 3: Descriptive analysis

##### 1. Distribución general del dataset
- El conjunto de datos contiene **1674 registros** y **24 variables**.  
- Hay variables categóricas (tipo de vehículo, tipo de combustible, estado de aprobación) y numéricas (año, edad, emisiones, etc.).
- Identificación administrativa:

    `Date`, `Place`, `Location code`, `Intervention type`, `Vehicle plate` → no aportan valor predictivo (son metadatos).

- Resultados de inspecciones técnicas:

    VTI, VTI Center, VTI Last date, VTI Since last inspection → dependen de inspecciones previas, podrían sesgar.

- Variables de gases contaminantes (NO USAR) porque, son post-variables (es decir, solo se conocen después de la inspección, como los gases medidos CO percVol, HC ppm), y porque el objetivo es no depender de emisiones.  

    VTI CO percVol, VTI HC ppm, VTI CO+CO2 min perc
    
    MPL CO percVol, MPL HC ppm, MPL CO+CO2 min perc
    
    CO percVol, HC ppm, CO+CO2 min perc, CO2 percVol

- Conjunto de variables finales
  
        X (predictoras) = [Vehicle type, Fuel type, Vehicle year, Vehicle age]
        y (objetivo) = [State]

##### 2. Variables categóricas principales
- **Tipo de vehículo**: aparecen varias categorías, con predominancia de autos livianos y camionetas.  
- **Tipo de combustible**: predominan vehículos a gasolina, seguidos de diésel; hay pocos registros de híbridos o gas.  
- **Estado (`State`)**:  
  - **52.1% desaprobados**  
  - **47.9% aprobados**  
  👉 La distribución está **relativamente balanceada**, lo que es positivo para el modelado.

##### 3. Variables numéricas
- **Año de vehículo**: varía entre **1972 y 2017**.  
- **Edad del vehículo**: oscila entre **0 y 45 años**.  
  - Se observan valores razonables, aunque hay presencia de autos bastante antiguos (más de 30 años).  

##### 4. Valores faltantes
- Algunas columnas presentan valores nulos, sobre todo en datos de inspecciones técnicas (`VTI`, `MPL`, etc.).  
- Esto deberá considerarse en la **fase de limpieza (Data Preparation)**.

##### 5. Correlaciones
- Existe correlación negativa esperada entre **`Vehicle year`** y **`Vehicle age`** (a mayor año, menor edad).  
- Variables de emisiones (`CO`, `HC`, `CO+CO2`) muestran correlaciones entre sí, lo cual indica redundancia.  
- La variable objetivo `State` no aparece en la matriz (es categórica), pero en el análisis comparativo se observa que **vehículos más antiguos y con mayor edad tienden a desaprobar**.

#### 6. Perfil comparativo Approved vs Disapproved
- Los **vehículos aprobados** en promedio son **más nuevos y con menor edad**.  
- En los **desaprobados** predominan autos con mayor antigüedad y más asociados a combustibles como el diésel.  
- Esto sugiere que **la edad del vehículo y el tipo de combustible son variables clave predictoras**.


## Fase 3. Data Preparation

### 🧹 4. Data cleaning

#### 4.1 Selección inicial de variables claves

Queremos construir un modelo que prediga si un vehículo será APPROVED (1) o DISAPPROVED (0) sin usar mediciones de gases contaminantes.
Por lo tanto, debemos excluir columnas de emisiones directas y quedarnos solo con las características intrínsecas del vehículo.


##### a) Candidatas a **ELIMINAR** (irrelevantes o con riesgo de *leakage*)
- **Metadatos / administrativos**:  
  `Date`, `Place`, `Location code`, `Intervention type`, `Vehicle plate`, `Vehicle year`
- **Historial de inspecciones técnicas (depende de resultados previos)**:  
  `VTI`, `VTI Center`, `VTI Last date`, `VTI Since last inspection`
- **Mediciones de emisiones (NO usar por lineamiento del proyecto)**:  
  `VTI CO percVol`, `VTI HC ppm`, `VTI CO+CO2 min perc`,  
  `MPL CO percVol`, `MPL HC ppm`, `MPL CO+CO2 min perc`,  
  `CO percVol`, `HC ppm`, `CO+CO2 min perc`, `CO2 percVol`

> *Motivo:* No aportan al objetivo de predecir aprobación usando **solo características del vehículo** y pueden introducir *data leakage*.

##### b) Candidatas a **CONSERVAR** (predictores)
- `Vehicle type`  
- `Fuel type`  
-   
- `Vehicle age`  

**Variable objetivo:** `State` (APPROVED/DISAPPROVED)

---



In [None]:
# Conservar solo variables relevantes + objetivo
features_keep = ["Vehicle type", "Fuel type", "Vehicle age"]
target = ["State"]

df_sel = df[features_keep+target]

print("df_sel.shape:", df_sel.shape)
print("df_sel.columns:", df_sel.columns.tolist())
df_sel.head(3)

In [None]:
# 1. Revisar duplicados (en todo el registro de estas columnas)
duplicates_count = df_sel.duplicated().sum()
# df_sel = df_sel.drop_duplicates()
duplicates_count

In [None]:
# 2. Revisar outliers en Vehicle age
age_summary = df_sel['Vehicle age'].describe()
outliers_high = df_sel[df_sel['Vehicle age'] > 50].shape[0]
outliers_low = df_sel[df_sel['Vehicle age'] < 0].shape[0]
outliers_high, outliers_low


In [None]:
# 3. Revisar valores faltantes
df_sel.isnull().sum()

In [None]:
#porcentaje de valores null por columna
miss = (df_sel.isnull().sum() / len(df_sel))*100
miss.sort_values(inplace=True)
miss

In [None]:
df_sel

In [None]:
#Eliminar los valores nulos, este paso no es necesario
df_clean = df_sel.dropna()
print('df_sel.shape:',df_sel.shape)
print('df_clean.shape:',df_clean.shape)

In [None]:
# 
df_clean.describe()

In [None]:
df_clean.info()


In [None]:
#separate variables into new data frames

numeric_data = df_clean.select_dtypes(include=[np.number])
categor_data = df_clean.select_dtypes(exclude=[np.number])
print ("There are {} numeric and {} categorical columns in train data".format(numeric_data.shape[1],categor_data.shape[1]))

In [None]:
numeric_data.describe()

In [None]:
#correlation plot
corr = numeric_data.corr()
sns.heatmap(corr, annot=True)

In [None]:
categor_data.describe()

In [None]:
print('numeric_data.columns:',numeric_data.columns)
print('categor_data.columns:',categor_data.columns)

### 🧹 5. Data transformation

In [None]:
data=df_clean

In [None]:
# 1. Codificar variable objetivo con Label Encoding para codificación binaria
data['State_i'] = data['State'].map({'APPROVED': 1, 'DISAPPROVED': 0}) # Variable objetivo (binaria):
data

In [None]:
# One-Hot Encoding
    # Vehicle type → columnas Type_*
    # Fuel type → columnas Fuel_*
    
data_encoded = pd.get_dummies(data, columns=['Vehicle type','Fuel type'], prefix=['Type','Fuel'])
data_encoded

In [None]:
# Escalado de variable numérica (Vehicle age):
#  Podemos usar StandardScaler (media=0, sd=1) o MinMaxScaler (0–1).
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data_encoded['Vehicle_age_scaled'] = scaler.fit_transform(data_encoded[['Vehicle age']])
data_encoded


In [None]:
# Seleccionar columnas transformadas
cols_show = ['State_i', 'Vehicle_age_scaled'] + \
             [col for col in data_encoded.columns if col.startswith('Type_') or col.startswith('Fuel_')]

data_encoded[cols_show].head()

In [None]:
# Seleccionar para guardar
print('features_keep:',features_keep)
print('target:',target)
# features_keep = ["Vehicle type", "Fuel type", "Vehicle age"]
# target = ["State"]

data=data[features_keep+target]
data

#### 🔧 Codificación y transformación de variables

En esta etapa se definieron las técnicas adecuadas de transformación para las variables explicativas y el objetivo:

##### 1. Variable objetivo: `State`
- Se aplicó **codificación binaria**:  
  - `APPROVED = 1`  
  - `DISAPPROVED = 0`  
- Justificación: el objetivo es un problema de clasificación binaria, por lo que esta representación es la más directa y eficiente.

---

##### 2. Variables categóricas: `Vehicle type` y `Fuel type`
- Se utilizó **One-Hot Encoding**, creando columnas binarias para cada categoría.  
- Justificación:  
  - Estas variables no tienen un orden intrínseco (no son ordinales).  
  - **Label Encoding** introduciría un orden artificial que puede sesgar los modelos lineales.  
  - **Ordinal Encoding** no aplica porque no existe jerarquía natural entre tipos de vehículo o combustible.  
  - **One-Hot** es más adecuado, dado que el número de categorías es pequeño y controlado, evitando explosión de dimensionalidad.

---

##### 3. Variable numérica: `Vehicle age`
- Se mantuvo la variable original y además se creó una versión **escalada con StandardScaler**.  
- Justificación:  
  - Algunos algoritmos (regresión logística, SVM, redes neuronales) se benefician del escalado.  
  - Para modelos basados en árboles (Decision Tree, Random Forest, Gradient Boosting) no es estrictamente necesario, pero no afecta negativamente.  
  - Conservar ambas versiones permite flexibilidad en la fase de modelado.

---

##### 📌 Conclusión
- **`State` → Binaria (0/1).**  
- **`Vehicle type`, `Fuel type` → One-Hot Encoding.**  
- **`Vehicle age` → Original + Escalada.**

De esta forma, todas las variables quedan listas para alimentar los modelos de Machine Learning sin introducir sesgos por codificación inapropiada.



In [None]:
# Calcular correlaciones de todas las variables numéricas con respecto a State_i
corr_vars = data_encoded.drop(columns=['State']).corr()
corr_vars


In [None]:
# Ordenar las correlaciones con respecto a State_i
corr_with_target = corr_vars['State_i'].sort_values(ascending=False)

corr_with_target

#### 📊 Interpretación de correlaciones

##### 1. Variables con correlación positiva (mayor probabilidad de aprobación)
- **`Type_PRIVATE` (r ≈ +0.13):** Los vehículos privados tienen más probabilidad de ser **aprobados**.  
- **`Fuel_GASOLINA` (r ≈ +0.06):** Los vehículos a gasolina tienden ligeramente a aprobar más.  
- **`Type_REMISSION` y `Type_STATION` (r ≈ +0.04):** correlaciones débiles pero positivas.

---

##### 2. Variables con correlación negativa (asociadas a desaprobación)
- **`Vehicle age` (r ≈ -0.23):** La antigüedad es la variable más fuerte: a mayor edad, más probabilidad de **desaprobar**.  
- **`Type_INDEPENDENT` (r ≈ -0.15):** Este tipo de vehículo se asocia a más desaprobación.  
- **`Fuel_BI-GNV` (r ≈ -0.05) y `Fuel_DIESEL` (r ≈ -0.02):** leve tendencia a desaprobar.

---

##### 3. Variables neutras o con efecto muy bajo
- **`Fuel_GLP`, `Fuel_GNV`, `Fuel_BI-GLP`:** correlaciones prácticamente nulas.

---

##### 📌 Conclusiones
- La **edad del vehículo** es la variable más relevante (negativa con la aprobación).  
- El **tipo de vehículo** también influye: los privados tienden a aprobar más, mientras que los independientes tienden a desaprobar.  
- El **tipo de combustible** muestra un efecto menor, aunque destaca **gasolina (+)** y **diésel (−)**.  

👉 Esto confirma que **Vehicle age + Vehicle type + Fuel type** son variables útiles para el modelo, aunque la más fuerte es claramente la **edad del vehículo**.


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Excluir la autocorrelación de State_i=1
corr_with_target_plot = corr_with_target.drop('State_i')

# Crear gráfico de barras ordenado
plt.figure(figsize=(8,6))
sns.barplot(x=corr_with_target_plot.values, y=corr_with_target_plot.index, palette="coolwarm")
plt.title("Correlación de variables con State_i (Approved=1)")
plt.xlabel("Coeficiente de correlación")
plt.ylabel("Variables")
plt.axvline(0, color='black', linestyle='--')
plt.show()


In [None]:
# fin del cuaderno ----*-----

#### Otras posibles transformaciones
- Agrupar años de vehículo en rangos (ej. <2000, 2000–2010, >2010).  
- Variables binarias: ¿tiene revisión técnica vigente?  
- Crear indicadores basados en límites MPL vs. medición real. 

#### Reduccion.
Aquí buscamos quedarnos con las variables más útiles, eliminando redundantes o irrelevantes, para que el modelo sea eficiente y evite ruido.

In [None]:
data

In [None]:
# Frecuencias categóricas
freq_vehicle_type = data['Vehicle type'].value_counts(normalize=True) * 100
freq_vehicle_type.to_frame("percentage")


In [None]:
freq_fuel_type = data['Fuel type'].value_counts(normalize=True) * 100
freq_fuel_type.to_frame("percentage")

In [None]:
# Guardar dataset limpio sin transformar, revisar lo que conviene
data.to_csv("data_clean.csv", index=False)
print("Dataset limpio guardado como data_clean.csv")

data_encoded.to_csv("data_encoded_clean.csv", index=False)
print("Dataset limpio + transformado guardado como data_encoded_clean.csv")


### ✅  6. Data validation (Sesión 4)

Aquí buscamos quedarnos con las variables más útiles, eliminando redundantes o irrelevantes, para que el modelo sea eficiente y evite ruido.

In [None]:
df = pd.read_csv("data_clean.csv")
df.head()

In [None]:
data_encoded = pd.read_csv("data_encoded_clean.csv")
data_encoded.head()

In [None]:
# Seleccionar columnas transformadas
cols_show = ['State_i', 'Vehicle_age_scaled'] + \
             [col for col in data_encoded.columns if col.startswith('Type_') or col.startswith('Fuel_')]

data_encoded[cols_show].head()

In [None]:
import seaborn as sns, matplotlib.pyplot as plt
corr = data_encoded[cols_show].corr()
plt.figure(figsize=(12,8))

sns.heatmap(corr, annot=True, cmap="coolwarm", center=0)
plt.title("Matriz de correlación post-limpieza")

plt.show()


In [None]:
corr["State_i"].sort_values(ascending=False)


#####  Selección final de variables

In [None]:
# Ejemplo: eliminar variables con baja correlación con el target (<0.05) o redundantes (>0.9 entre sí)
data_f=data_encoded
to_drop = [col for col in data_f[cols_show].columns if col not in ["State_i"] and abs(data_f[col].corr(data_f["State_i"])) < 0.05]
df_final = data_f[cols_show].drop(columns=to_drop)

print("Variables eliminadas:", to_drop)
print("Dimensiones finales:", df_final.shape)

In [None]:
df_final

In [None]:
df_final.to_csv("data_encoded_clean_final.csv", index=False)
print("Dataset limpio + transformado guardado como data_encoded_clean_final.csv")

### Guía autónoma de la sesión 4

cada equipo aplica exactamente el mismo flujo a su dataset del proyecto grupal.

#### 📦 Entregables Sesión 4
1. Este notebook o cuaderno .ipynb pero con tus datos.
2. Dataset limpio + transformado en .csv.
3. Github:https://github.com/mindatos/respiralimpio (reemplaza aquí por tu url)
4. Coloca aquí el resumen de decisiones.
