# PREGUNTA 2

---

# Configuración y Visualización del Entorno

## Configuración de las Rutas de Importación

Se añade el directorio padre (..) al path (sys.path), lo que permite al entorno de Python acceder a módulos o paquetes ubicados en directorios superiores al actual. Esto es útil para poder importar scripts o paquetes personalizados sin tener que mover ficheros o el directorio de trabajo.

In [1]:
import sys
sys.path.insert(0, '..')

## Verificación de las Versiones de los Paquetes

Se utiliza la función check_packages() para verificar que los paquetes y sus respectivas versiones indicadas en el diccionario 'd' estén instalados correctamente dentro del entorno. Este paso es importante para verificar la compatibilidad de cada paquete para poder evitar errores por diferencia de versión.

In [2]:
from python_environment_check import check_packages
d = {
    'numpy': '1.21.2',
    'scipy': '1.7.0',
    'mlxtend' : '0.19.0',
    'matplotlib': '3.4.3',
    'sklearn': '1.0',
    'pandas': '1.3.2'
}
check_packages(d)

[OK] Your Python version is 3.10.12 (main, Sep 11 2024, 15:47:36) [GCC 11.4.0]
[OK] numpy 1.24.3
[OK] scipy 1.8.0
[OK] mlxtend 0.23.1
[OK] matplotlib 3.5.1
[OK] sklearn 1.5.2
[OK] pandas 2.2.2


## Importación de Paquetes

Se importan los paquetes esenciales para analizar y visualizar datos: numpy para cálculos numéricos, pandas para manipular datos y matplotlib.pyplot para visualizar gráficos.

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

---

# Código Fuente

In [4]:
columns = ['Col1', 'Col2', 'Col3', 'Col4', 'Col5', 'Col6', 'Target']
df = pd.read_csv("dataset_classification.csv", 
                 sep=',',
                 usecols=columns)

In [5]:
dataset_classification_anonymized = df.drop(["Target"], axis=1)
dataset_classification_anonymized.to_csv('dataset_classification_anonymized.csv', index=False)
dataset_classification_anonymized.corr()

Unnamed: 0,Col1,Col2,Col3,Col4,Col5,Col6
Col1,1.0,-7.136661000000001e-17,9.276252e-17,2.2410060000000002e-17,5.806663e-17,-2.210166e-17
Col2,-7.136661000000001e-17,1.0,9.367507000000001e-17,-4.7014690000000005e-17,4.684677e-17,-3.293844e-17
Col3,9.276252e-17,9.367507000000001e-17,1.0,1.254194e-16,-4.568295e-17,9.402938000000001e-17
Col4,2.2410060000000002e-17,-4.7014690000000005e-17,1.254194e-16,1.0,1.518145e-16,-9.765851e-17
Col5,5.806663e-17,4.684677e-17,-4.568295e-17,1.518145e-16,1.0,-3.6527880000000005e-17
Col6,-2.210166e-17,-3.293844e-17,9.402938000000001e-17,-9.765851e-17,-3.6527880000000005e-17,1.0


In [6]:
X = dataset_classification_anonymized
y = df.get("Target")

In [7]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.30, random_state=1, stratify=y)

In [8]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

In [9]:
print('Labels counts in y:', np.bincount(y))
print('Labels counts in y_train:', np.bincount(y_train))
print('Labels counts in y_test:', np.bincount(y_test))

Labels counts in y: [   0 1210  384   65   69]
Labels counts in y_train: [  0 847 269  45  48]
Labels counts in y_test: [  0 363 115  20  21]


In [10]:
from sklearn.svm import SVC

# PARÁMETROS POR DEFECTO
svm = SVC(kernel='rbf', random_state=1, gamma=0.7, C=30.0, probability=True)

# PARÁMETROS ÓPTIMOS
# svm = SVC(kernel='rbf', random_state=1, gamma=0.17, C=7.0, probability=True)

svm.fit(X_train_std, y_train)
y_pred = svm.predict(X_test_std)
print('Misclassification samples: %d' % (y_test != y_pred).sum())
print(y_test != y_pred)
print('Accuracy: %.3f' % svm.score(X_test_std, y_test))

Misclassification samples: 6
95      False
927     False
420     False
1598    False
1551    False
        ...  
239     False
1549    False
926     False
35      False
385     False
Name: Target, Length: 519, dtype: bool
Accuracy: 0.988


In [11]:
input_data = pd.DataFrame([[4, 3, 2, 4, 2, 2]])
print(f'Class probability: {svm.predict_proba(input_data)}')
print('Most probable class: %d' % svm.predict(input_data)[0])

Class probability: [[0.98765973 0.00799642 0.00163757 0.00270628]]
Most probable class: 1


---

# Convertir Jupyter Notebook a Fichero Python

In [12]:
! python .convert_notebook_to_script.py --input answer2.ipynb --output answer2.py

[NbConvertApp] Converting notebook answer2.ipynb to script
[NbConvertApp] Writing 3348 bytes to answer2.py
