In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Descripción del dataset

Este conjunto de datos simula registros industriales con múltiples métricas relacionadas con la producción, calidad, mantenimiento y eficiencia energética de procesos manufactureros. Cada fila representa una observación (por ejemplo, un lote o período de producción) y contiene las siguientes variables:

- **ProductionVolume**: Volumen total de producción (en unidades).
- **ProductionCost**: Costo total de producción (en unidades monetarias).
- **SupplierQuality**: Evaluación de calidad del proveedor (0 a 100).
- **DeliveryDelay**: Días promedio de retraso en la entrega.
- **DefectRate**: Porcentaje de productos defectuosos.
- **QualityScore**: Puntuación general de calidad (0 a 100).
- **MaintenanceHours**: Horas dedicadas a mantenimiento.
- **DowntimePercentage**: Porcentaje de tiempo que la línea estuvo inactiva.
- **InventoryTurnover**: Veces que se renueva el inventario en un período.
- **StockoutRate**: Frecuencia con la que faltan productos en stock.
- **WorkerProductivity**: Productividad del trabajador (índice).
- **SafetyIncidents**: Número de incidentes de seguridad registrados.
- **EnergyConsumption**: Consumo total de energía (kWh).
- **EnergyEfficiency**: Índice de eficiencia energética (0 a 1).
- **AdditiveProcessTime**: Tiempo usado en procesos aditivos (como impresión 3D).
- **AdditiveMaterialCost**: Costo de los materiales usados en procesos aditivos.
- **DefectStatus**: **Variable objetivo** (binaria):  
  - `0`: Sin defectos significativos.  
  - `1`: Con defectos.

# Ejercicio 1
1. Carga el archivo CSV llamado `corpus_svm.csv` usando `pandas`.
2. Separa las características predictoras (`X`) eliminando la columna `DefectStatus`.
3. Asigna la columna `DefectStatus` a la variable objetivo (`y`).

In [2]:
df = pd.read_csv("corpus_svm.csv")
x = df.drop('DefectStatus', axis = 1)
y = df ['DefectStatus']

Aplicamos un escalado para dejar las variables entre 0 y 1.

In [4]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(x)

# Ejercicio 2

1. Divide los datos escalados y las etiquetas en conjunto de entrenamiento y prueba.
2. Usa `train_test_split` con `test_size=0.3` y `random_state=42`.


In [18]:
x_train, x_test, y_train, y_test = train_test_split(X_scaled, y, test_size = 0.2, random_state = 42)

print(df.head(5))

   ProductionVolume  ProductionCost  SupplierQuality  DeliveryDelay  \
0               221    12587.790394        92.015843              2   
1               566    17610.545420        94.017314              3   
2               314    15992.023171        85.704116              0   
3               187    12625.408204        89.640347              3   
4               376    17001.064530        81.991594              4   

   DefectRate  QualityScore  MaintenanceHours  DowntimePercentage  \
0    2.425283     97.507284                 0            2.633960   
1    1.987848     76.220846                 6            3.362400   
2    0.906434     82.750764                 3            4.179166   
3    0.970495     99.820809                 9            0.260557   
4    2.794505     94.085583                 5            1.304462   

   InventoryTurnover  StockoutRate  WorkerProductivity  SafetyIncidents  \
0           5.933418      0.032955           85.316362                6   
1       

# Ejercicio 3

1. Crea un clasificador SVM lineal (`SVC(kernel='linear')`).
2. Entrena el modelo con los datos de entrenamiento (`X_train`, `y_train`).
3. Realiza predicciones sobre los datos de prueba (`X_test`) y evalúa el rendimiento.

In [19]:
from sklearn.svm import SVC
from sklearn.metrics import classification_report

svmL = SVC (kernel='linear')

svmL.fit(x_train, y_train)

y_pred = svmL.predict(x_test)

print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred))

Reporte de Clasificación:
              precision    recall  f1-score   support

           0       0.77      0.77      0.77       107
           1       0.81      0.81      0.81       133

    accuracy                           0.79       240
   macro avg       0.79      0.79      0.79       240
weighted avg       0.79      0.79      0.79       240



# Ejercicio 4

Ahora vamos a probar los kernels:

1. Crea un clasificador SVM con kernel RBF (`SVC(kernel='rbf')`).
2. Entrena el modelo con los datos de entrenamiento (`X_train`, `y_train`).
3. Realiza predicciones sobre los datos de prueba (`X_test`) y evalúa.
4. Prueba diferentes kernels.
5. Justifica las pruebas.

In [20]:
svmRBF = SVC (kernel='rbf')

svmRBF.fit(x_train, y_train)

y_pred = svmRBF.predict(x_test)

print("Reporte de Clasificación RBF:")
print(classification_report(y_test, y_pred))

svmP = SVC (kernel='poly')

svmP.fit(x_train, y_train)

y_pred = svmP.predict(x_test)

print("Reporte de Clasificación Polynomial:")
print(classification_report(y_test, y_pred))

svmS = SVC (kernel='sigmoid')

svmS.fit(x_train, y_train)

y_pred = svmS.predict(x_test)

print("Reporte de Clasificación Sigmoid:")
print(classification_report(y_test, y_pred))

Reporte de Clasificación RBF:
              precision    recall  f1-score   support

           0       0.81      0.75      0.78       107
           1       0.81      0.86      0.83       133

    accuracy                           0.81       240
   macro avg       0.81      0.80      0.80       240
weighted avg       0.81      0.81      0.81       240

Reporte de Clasificación Polynomial:
              precision    recall  f1-score   support

           0       0.71      0.67      0.69       107
           1       0.75      0.77      0.76       133

    accuracy                           0.73       240
   macro avg       0.73      0.72      0.72       240
weighted avg       0.73      0.73      0.73       240

Reporte de Clasificación Sigmoid:
              precision    recall  f1-score   support

           0       0.75      0.78      0.76       107
           1       0.81      0.79      0.80       133

    accuracy                           0.78       240
   macro avg       0.78    

# Ejercicio 5

Aplica PCA a los datos de entrenamiento para reducir la dimensionalidad a 5 componentes.

Usa la función `PCA(n_components=n)`, donde `n` es el número de componentes (o dimensiones) usados para el algoritmo PCA.  

Si quieres puedes intentar averiguar el mejor valor de `n`.


In [67]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

pca = PCA(n_components=16)
x_train_pca = pca.fit_transform(x_train)
x_test_pca = pca.transform(x_test)

# Ejercicio 6

1. Entrena un nuevo modelo SVM sobre estos datos reducidos.
2. Realiza predicciones sobre los datos reducidos.
3. Evalúa el modelo usando.
4. Justifica lo que ocurre.

In [68]:
svmRBF = SVC(kernel='rbf')
svmRBF.fit(x_train_pca, y_train)
y_pred = svmRBF.predict(x_test_pca)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.81      0.75      0.78       107
           1       0.81      0.86      0.83       133

    accuracy                           0.81       240
   macro avg       0.81      0.80      0.80       240
weighted avg       0.81      0.81      0.81       240

