<a href="https://colab.research.google.com/github/mscsoliz/Prueba/blob/main/Copia_de_SVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**SUPPORT VECTOR MACHINE (SVM)**

Se usa ampliamente en una variedad de aplicaciones de clasificación y regresión en machine learning

Usos Comunes de SVM

**Clasificación de Texto:**

Spam Detection: Clasificación de correos electrónicos en spam o no spam.
Document Classification: Clasificación de documentos en diferentes categorías.

**Reconocimiento de Imágenes:**

Detección de Objetos: Identificación de objetos en imágenes.
Reconocimiento Facial: Identificación o verificación de identidades en imágenes faciales.

**Bioinformática:**

Clasificación de Proteínas: Clasificación de proteínas en diferentes clases basadas en sus secuencias.
Predicción de Enfermedades: Diagnóstico de enfermedades a partir de datos genómicos.

**Análisis de Sentimientos:**

Opiniones y Comentarios: Clasificación de comentarios en positivos, negativos o neutros.

**Finanzas:**

Detección de Fraude: Identificación de transacciones fraudulentas en sistemas financieros.

**Medicina:**

Diagnóstico: Clasificación de imágenes médicas para ayudar en el diagnóstico de enfermedades.

**METRICAS PARA EVALUAR SVM**

Las métricas para evaluar un modelo SVM dependen del tipo de problema (clasificación o regresión) y pueden variar. Aquí te muestro algunas métricas comunes para clasificación:

**Precisión (Accuracy):**

Definición: Proporción de predicciones correctas entre el total de predicciones.

Uso: Es útil cuando el costo de los falsos positivos es alto.

**Precisión (Precision):**

Definición: Proporción de verdaderos positivos entre los positivos predichos.

Uso: Es útil cuando el costo de los falsos positivos es alto.

**Recall (Sensibilidad o Tasa de Verdaderos Positivos):**

Definición: Proporción de verdaderos positivos entre los positivos reales.

Uso: Es útil cuando el costo de los falsos negativos es alto.

**F1-Score:**

Definición: Media armónica de la precisión y el recall.

Uso: Proporciona un balance entre precisión y recall, especialmente útil cuando hay un desequilibrio en las clases.

**Matriz de Confusión:**

Definición: Tabla que muestra los verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.
Uso: Ayuda a entender el desempeño del modelo en cada clase.

**Área Bajo la Curva ROC (AUC-ROC):**

Definición: Área bajo la curva de la característica operativa del receptor (ROC).
Uso: Mide la capacidad del modelo para distinguir entre clases. Un valor de 1 indica un modelo perfecto, y un valor de 0.5 indica un modelo que no es mejor que un azar.

**Área Bajo la Curva PR (AUC-PR):**

Definición: Área bajo la curva de precisión-recall (PR).
Uso: Es especialmente útil en escenarios con clases desequilibradas, donde la precisión y el recall son más importantes que la precisión general.

In [None]:
# Importamos las bibliotecas necesarias
from sklearn import datasets  # Para cargar el conjunto de datos
from sklearn.model_selection import train_test_split  # Para dividir los datos en conjuntos de entrenamiento y prueba
from sklearn import svm  # Para el clasificador SVM
from sklearn.metrics import classification_report, accuracy_score  # Para evaluar el desempeño del modelo

# Cargamos el conjunto de datos Iris
iris = datasets.load_iris()

# `iris.data` contiene las características del dataset (sepal length, sepal width, petal length, petal width)
# `iris.target` contiene las etiquetas de clase (0, 1, 2)
X = iris.data
y = iris.target

# Dividimos el dataset en conjunto de entrenamiento (70%) y conjunto de prueba (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Creamos un clasificador SVM con un núcleo lineal
# kernel='linear' indica que usaremos un núcleo lineal (una frontera de decisión lineal).
# C=1.0 es un parámetro que controla la penalización por errores de clasificación.
# Un valor pequeño de C hace que el margen sea más importante que clasificar todos los puntos correctamente.
# Esto significa que el modelo puede permitir algunos errores en el conjunto de entrenamiento para obtener un margen más amplio.
# En otras palabras, es más tolerante con los errores.
# Puede llevar a un modelo menos complejo y menos sobreajustado (underfitting), pero también puede llevar a un desempeño deficiente si el margen es demasiado amplio.
# Un valor grande de C penaliza más los errores de clasificación. Esto significa que el modelo se enfocará en clasificar correctamente todos los puntos de entrenamiento, incluso si eso resulta en un margen más pequeño.
# Puede llevar a un modelo más complejo que se ajusta muy bien a los datos de entrenamiento (overfitting), capturando incluso el ruido en los datos

clf = svm.SVC(kernel='linear', C=1.0)



# Entrenamos el clasificador con el conjunto de entrenamiento
clf.fit(X_train, y_train)

# Usamos el clasificador para predecir las etiquetas del conjunto de prueba
y_pred = clf.predict(X_test)

# Evaluamos el rendimiento del clasificador
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))


Accuracy: 1.0
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45



In [None]:
# Datos de entrada de ejemplo (en este caso, características del iris)
# Ejemplo: [sepal length, sepal width, petal length, petal width]
example_data = [
    [5.1, 3.5, 1.4, 0.2],  # Ejemplo de una flor Iris-setosa
    [6.2, 2.8, 4.8, 1.8],  # Ejemplo de una flor Iris-versicolor
    [7.9, 3.8, 6.4, 2.0]   # Ejemplo de una flor Iris-virginica
]

# Hacer predicciones con los datos de entrada de ejemplo
# predict() usa el modelo entrenado para clasificar los datos de entrada de ejemplo.
predictions = clf.predict(example_data)

# Mapeo de las etiquetas a los nombres de las especies
# iris.target_names contiene los nombres de las especies ('setosa', 'versicolor', 'virginica').
species_names = iris.target_names

# Mostrar las predicciones,
# Itera sobre los datos de entrada de ejemplo y muestra la predicción correspondiente del modelo.
for i, data in enumerate(example_data):
    print(f"Datos de entrada: {data}")
    print(f"Predicción: {species_names[predictions[i]]}")

Datos de entrada: [5.1, 3.5, 1.4, 0.2]
Predicción: setosa
Datos de entrada: [6.2, 2.8, 4.8, 1.8]
Predicción: virginica
Datos de entrada: [7.9, 3.8, 6.4, 2.0]
Predicción: virginica
