#Matriz de Confusion

Universidad Nacional Autónoma de México

Facultad de Estudios Superiores Acatlán

Licenciatura en Ciencia de Datos

Rosales Herrera Jonathan Adrian

3-1724328-6

18/10/2023

---

##Objetivo

El objetivo principal es evaluar el rendimiento de diferentes modelos de machine learning en un problema de clasificación binaria. Se explorarán y compararán modelos como la Regresión Logística, Random Forest, K-Nearest Neighbors (KNN) y Máquinas de Soporte Vectorial (SVM) en términos de precisión, sensibilidad, especificidad, exhaustividad y puntuación F1. El propósito es determinar cuál de estos modelos ofrece el mejor desempeño para la tarea de clasificación y proporcionar información valiosa para la toma de decisiones futuras en aplicaciones similares.

##Materiales y Métodos


*   Conjunto de datos *Social_Network_Ads.csv*
*   Herramientas de Programación (Google Colaboratory)


##Resumen
Se llevó a cabo una evaluación comparativa de diferentes modelos de aprendizaje automático para abordar un problema de clasificación binaria. Se consideraron cuatro modelos principales: Regresión Logística, Random Forest, K-Nearest Neighbors (KNN) y Máquinas de Soporte Vectorial (SVM).

Los modelos se entrenaron utilizando un conjunto de datos que contenía características relevantes para predecir la variable objetivo. Posteriormente, se realizaron predicciones en un conjunto de prueba y se calcularon diversas métricas de rendimiento, incluyendo precisión, sensibilidad, especificidad, exhaustividad y puntuación F1.

Los resultados revelaron que el modelo SVM demostró un rendimiento excepcional en términos de precisión, superando a los otros modelos. La Regresión Logística también mostró un desempeño sólido, mientras que Random Forest y KNN obtuvieron resultados respetables.

En resumen, se proporcionó información valiosa sobre la efectividad de varios modelos de aprendizaje automático en la clasificación de datos. La elección del modelo óptimo dependerá de las necesidades específicas de la aplicación y los requisitos de precisión y generalización. Estos resultados servirán como base para futuras decisiones en problemas similares de clasificación.






##Antecedentes Teóricos

En el campo del aprendizaje automático, la clasificación es una tarea fundamental que involucra la asignación de objetos o datos a una o más categorías o clases. Para abordar problemas de clasificación, se emplean diversos algoritmos y modelos de machine learning. Entre estos modelos se encuentran la Regresión Logística, Random Forest, K-Nearest Neighbors (KNN) y las Máquinas de Soporte Vectorial (SVM).

* Regresión Logística: La Regresión Logística es un modelo de clasificación ampliamente utilizado que se basa en la función logística para estimar la probabilidad de que un dato pertenezca a una de las dos clases. Es especialmente efectiva para problemas de clasificación binaria y se basa en la regresión lineal.

* Random Forest: Random Forest es un modelo de conjunto que combina múltiples árboles de decisión para mejorar la precisión y la generalización del modelo. Se destaca por su capacidad para manejar características importantes y la capacidad de manejar datos no lineales.

* K-Nearest Neighbors (KNN): KNN es un algoritmo que clasifica los datos basándose en la mayoría de los vecinos más cercanos en un espacio multidimensional. Funciona asignando una etiqueta de clase basada en las etiquetas de los "k" puntos de datos más cercanos.

* Máquinas de Soporte Vectorial (SVM): Las Máquinas de Soporte Vectorial son poderosas para la clasificación y regresión. Utilizan vectores de soporte para determinar un hiperplano que maximice el margen entre clases. Las SVM son efectivas tanto en problemas de clasificación lineal como no lineal.

La elección del modelo de aprendizaje automático depende del tipo de problema, la naturaleza de los datos y los objetivos específicos de la aplicación. Evaluaremos y compararemos el rendimiento de estos modelos en un problema de clasificación binaria para determinar cuál de ellos se adapta mejor a nuestros datos y necesidades.

##Desarrollo

###Librerías

In [None]:
import pandas as pd
import plotly.express as px

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.metrics import confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

###Datos

In [None]:
df = pd.read_csv('/content/Social_Network_Ads.csv')

####Análisis Preeliminar

In [None]:
df.columns

Index(['User ID', 'Gender', 'Age', 'EstimatedSalary', 'Purchased'], dtype='object')

In [None]:
df.nunique()

User ID            400
Gender               2
Age                 43
EstimatedSalary    117
Purchased            2
dtype: int64

In [None]:
df.isna().sum()

User ID            0
Gender             0
Age                0
EstimatedSalary    0
Purchased          0
dtype: int64

In [None]:
df.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19.0,19000.0,0
1,15810944,Male,35.0,20000.0,0
2,15668575,Female,26.0,43000.0,0
3,15603246,Female,27.0,57000.0,0
4,15804002,Male,19.0,76000.0,0


In [None]:
df.tail()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
395,15691863,Female,46.0,41000.0,1
396,15706071,Male,51.0,23000.0,1
397,15654296,Female,50.0,20000.0,1
398,15755018,Male,36.0,33000.0,0
399,15594041,Female,49.0,36000.0,1


###División del conjunto

In [None]:
X = df[['Gender', 'Age', 'EstimatedSalary']]
y = df['Purchased']

In [None]:
X = pd.get_dummies(X, columns=['Gender'], drop_first=True)

###Árboles

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
tree_model = DecisionTreeClassifier()
tree_model.fit(X_train, y_train)

In [None]:
y_pred = tree_model.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

0.8375

In [None]:
report = classification_report(y_test, y_pred)
print('Informe de clasificación:\n', report)

Informe de clasificación:
               precision    recall  f1-score   support

           0       0.85      0.90      0.88        52
           1       0.80      0.71      0.75        28

    accuracy                           0.84        80
   macro avg       0.83      0.81      0.82        80
weighted avg       0.84      0.84      0.84        80



####Matriz de Confusión

In [None]:
matriz_confusion = confusion_matrix(y_test, y_pred)

In [None]:
matriz_confusion

array([[47,  5],
       [ 8, 20]])

###Bosque Aleatorio

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
ranfor = RandomForestClassifier()
ranfor.fit(X_train, y_train)

In [None]:
y_pred = ranfor.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

0.9

In [None]:
report = classification_report(y_test, y_pred)
print('Informe de clasificación:\n', report)

Informe de clasificación:
               precision    recall  f1-score   support

           0       0.94      0.90      0.92        52
           1       0.83      0.89      0.86        28

    accuracy                           0.90        80
   macro avg       0.89      0.90      0.89        80
weighted avg       0.90      0.90      0.90        80



####Matriz de Confusión

In [None]:
matriz_confusion = confusion_matrix(y_test, y_pred)

In [None]:
matriz_confusion

array([[47,  5],
       [ 3, 25]])

###K-Nearest Neighbors

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

In [None]:
y_pred = knn.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

0.825

In [None]:
report = classification_report(y_test, y_pred)
print('Informe de clasificación:\n', report)

Informe de clasificación:
               precision    recall  f1-score   support

           0       0.85      0.88      0.87        52
           1       0.77      0.71      0.74        28

    accuracy                           0.82        80
   macro avg       0.81      0.80      0.80        80
weighted avg       0.82      0.82      0.82        80



####Matriz de Confusión

In [None]:
matriz_confusion = confusion_matrix(y_test, y_pred)

In [None]:
matriz_confusion

array([[46,  6],
       [ 8, 20]])

###Regresión Logistica

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
model = LogisticRegression()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

0.65

In [None]:
report = classification_report(y_test, y_pred)
print('Informe de clasificación:\n', report)

Informe de clasificación:
               precision    recall  f1-score   support

           0       0.65      1.00      0.79        52
           1       0.00      0.00      0.00        28

    accuracy                           0.65        80
   macro avg       0.33      0.50      0.39        80
weighted avg       0.42      0.65      0.51        80



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


####Matriz de Confusión

In [None]:
matriz_confusion = confusion_matrix(y_test, y_pred)

In [None]:
matriz_confusion

array([[52,  0],
       [28,  0]])

###Máquina de Soporte Vectorial

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
svm = SVC(kernel='linear', C=1.0)
svm.fit(X_train, y_train)

In [None]:
y_pred = svm.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

0.85

In [None]:
report = classification_report(y_test, y_pred)
print('Informe de clasificación:\n', report)

Informe de clasificación:
               precision    recall  f1-score   support

           0       0.86      0.92      0.89        52
           1       0.83      0.71      0.77        28

    accuracy                           0.85        80
   macro avg       0.85      0.82      0.83        80
weighted avg       0.85      0.85      0.85        80



####Matriz de Confusión

In [None]:
matriz_confusion = confusion_matrix(y_test, y_pred)

In [None]:
matriz_confusion

array([[48,  4],
       [ 8, 20]])

##Conclusiones
Se llevó a cabo una evaluación comparativa de varios modelos de aprendizaje automático en un problema de clasificación binaria. Los modelos evaluados incluyeron la Regresión Logística, Random Forest, K-Nearest Neighbors (KNN) y las Máquinas de Soporte Vectorial (SVM). Los resultados y hallazgos de esta evaluación proporcionan información valiosa que puede resumirse en las siguientes conclusiones:

Rendimiento del Modelo SVM: El modelo de Máquinas de Soporte Vectorial (SVM) destacó como el mejor intérprete en términos de precisión. Demostró una capacidad sobresaliente para clasificar datos en la tarea de clasificación binaria.

Efectividad de la Regresión Logística: La Regresión Logística también mostró un rendimiento sólido y competitivo en comparación con otros modelos. Es una opción viable para problemas de clasificación.

Random Forest y KNN: Aunque Random Forest y KNN obtuvieron resultados respetables, su rendimiento no superó al de SVM y la Regresión Logística en este contexto particular.

Importancia de la Selección del Modelo: La elección del modelo adecuado es esencial y debe basarse en las necesidades específicas de la aplicación y la naturaleza de los datos. Cada modelo tiene sus propias ventajas y desventajas, y la elección del modelo óptimo puede variar según el problema.

Sensibilidad a los Hiperparámetros: Los modelos como Random Forest y KNN pueden ser sensibles a la configuración de hiperparámetros, lo que destaca la importancia de la optimización de hiperparámetros para maximizar su rendimiento.

En resumen, esta evaluación comparativa proporciona información valiosa para la toma de decisiones en futuros proyectos de clasificación. La elección del modelo adecuado dependerá de las características específicas de cada tarea y los requisitos de precisión. Estos resultados sirven como punto de partida para la selección del modelo más apropiado en aplicaciones futuras.

##Referencias


*   IBM. (2023, October 3). What is a Decision Tree. IBM. https://www.ibm.com/topics/decision-trees
*   IBM. (2023, October 4). What is Random Forest? IBM. https://www.ibm.com/topics/random-forest
*   IBM. (2023, October 3). What is Logistic regression? IBM.  https://www.ibm.com/topics/logistic-regression
*   GeeksforGeeks. (2023, September 26). Support Vector Machine (SVM) Algorithm. GeeksforGeeks. https://www.geeksforgeeks.org/support-vector-machine-algorithm/